您现在的位置:首页 > 民生 > 科创 > 正文

12项权威评测成绩超GPT-4 商汤新模型完成训练

来源:新民晚报     记者:郜阳     作者:郜阳     编辑:陆佳慧     2023-08-30 12:14 | |

图说:InternLM-123B在主要评测集上的表现 来源/采访对象提供

记者今天从商汤科技获悉,这家企业研发的大语言模型InternLM-123B在12项权威评测中超越GPT-4位列第一,综合性能全面超越GPT-3.5-turbo。

2023年上半年,商汤发布了“日日新”大模型体系,并发布了国内第一个综合性能全面超越GPT-3.5-turbo的基模型“书生·浦语”(InternLM)。这个大模型的研发共投入约10000张GPU,能力实现了飞跃式发展。

今年8月,新模型InternLM-123B完成训练,参数量提升至1230亿。新模型的语言、知识、理解、推理和学科五大能力均显著提高,在全球51个知名评测集共计30万道问题集合上测试成绩整体排名全球第二,超过GPT-3.5-turbo以及Meta新发布的LLaMA2-70B等模型。

据悉,InternLM-123在主要评测中,有12项成绩排名第一。其中,在评测集综合考试中的AGIEval分数为57.8,超越GPT-4位列第一;知识问答的评测分数为88.5,排名第一;InternLM-123B在阅读理解的五项评测中成绩全部居榜首;此外,在推理的五项评测中成绩排名第一。

InternLM-123B不仅生成的内容更加准确、可靠,可在复杂场景中进行多步推理和计算,还具备了自主反思及修正错误的能力。InternLM-123B也重点升级了代码解释器及插件调用能力,可使用python解释器、API调用和搜索三类常用工具来解决复杂任务、灵活搭建AI智能体应用。商汤科技透露,在此基础上,其自主研发的“商量”(SenseChat)大语言模型将在9月升级到3.0版本。

与此同时,商汤与多家科研机构合作支持和推进AI开源平台建设,InternLM-7B(70亿参数)的部分训练数据、训练代码及基模型权重已经向学术界及工业界免费开源,并支持商用。目前,InternLM-7B在多个模型测试榜单高居榜首,成为性能最好的轻量级基模型。商汤表示,期待看到AI社区对InternLM的改进和更多AI应用的共建。

事实上,大语言模型的突破带来了新机遇。基于InternLM的轻量级模型,结合自研推理加速算法,商汤正在与头部手机芯片厂商合作研发,已实现大语言模型的手机端实时计算能力。

“今年上半年,大模型和生成式AI可以说是全球最受瞩目的科技突破。”商汤集团董事会执行主席兼首席执行官徐立博士说,“我们希望给行业带来更强的大模型能力,助力我们的用户在生成式AI的时代做出颠覆性产品。”

新民晚报记者 郜阳


今日热点

网友评论 小提示:您要为您发表的言论后果负责,请各位遵守法纪注意语言文明
您还能输入300
最新评论 [展开]

新民报系成员|客户端|官方微博|微信矩阵|新民网|广告刊例|战略合作伙伴

新民晚报|新民网|新民周刊|新民晚报社区版

新民晚报数字报|新民晚报ipad版|新民网客户端

关于新民网|联系方式|工作机会|知识产权声明

北大方正|上海音乐厅|中卫普信|今日头条|钱报网|中国网信网|中国禁毒网|人民日报中央厨房

增值电信业务经营许可证(ICP):沪B2-20110022号|互联网新闻信息服务许可证:31120170003|信息网络传播视听节目许可证:0909381

广电节目制作经营许可证:(沪)字第536号|违法与不良信息举报电话15900430043|网络敲诈和有偿删帖跟帖评论自律管理承诺书

|沪公网安备 31010602000044号|沪公网安备 31010602000590号|沪公网安备 31010602000579号

新民晚报官方网站 xinmin.cn ©2023 All rights reserved