您现在的位置:首页 > 民生 > 科创 > 正文

全面开放!20B的体量70B的性能,大模型书生·浦语又“上新”了

来源:新民晚报     记者:郜阳     作者:郜阳     编辑:任天宝     2023-09-20 16:55 | |

图说:书生·浦语大模型开源历程 采访对象供图(下同)

今天,上海人工智能实验室与商汤科技联合香港中文大学和复旦大学正式推出书生·浦语大模型200亿参数版本InternLM-20B,并在阿里云魔搭社区开源首发。同时,书生·浦语面向大模型研发与应用的全链条工具链全线升级,与InternLM-20B一同继续全面开放,向企业和开发者提供免费商用授权。

自今年6月首次发布以来,书生·浦语已经历多轮升级,在开源社区和产业界产生了广泛影响。为进一步推动大模型落地应用,上海人工智能实验室联合多家机构推出了中量级参数的InternLM-20B大模型,性能先进且应用便捷,以不足三分之一的参数量,达到了当前被视为开源模型标杆的Llama2-70B的能力水平。

“增强版”增的不只是量

相比于国内社区之前陆续开源的7B和13B规格的模型,20B量级模型具备更为强大的综合能力,在复杂推理和反思能力上尤为突出,因此可为实际应用带来更有力的性能支持;同时,20B量级模型可在单卡上进行推理,经过低比特量化后,可运行在单块消费级GPU上,因而在实际应用中更为便捷。

InternLM-20B是基于2.3T token预训练语料从头训练的中量级语言大模型。相较于InternLM-7B,训练语料经过了更高水平的多层次清洗,补充了高知识密度和用于强化理解及推理能力的训练数据。

因此,在考验语言模型技术水平的理解能力、推理能力、数学能力、编程能力等方面,InternLM-20B都有显著提升——

通过更高水平的数据清洗和高知识密度的数据补充,以及更优的模型架构设计和训练,显著提升了模型的理解、推理、数学与编程能力。评测结果显示,InternLM-20B在全维度上领先于开源13B量级模型,平均成绩明显超越Llama-33B,以不足三分之一的参数量,评测成绩达到了被视为开源模型的标杆Llama2-70B水平。

拥有强大的工具调用能力,实现大模型与现实场景的有效连接,并具备代码解释和反思修正能力,为智能体的构建提供了良好的技术基础。

支持更长的语境,通过外推技术,支持16K语境长度,更有效地支撑长文理解、长文生成和超长对话,并为在InternLM-20B之上打造智能体的提供关键技术基础;

具备更安全的价值对齐,书生·浦语团队对InternLM-20B通过基于“监督微调”和“基于人类反馈的强化学习方式”两阶段价值对齐,以及专家红队的对抗训练,大幅提高其安全性。当面对带有偏见的提问时,模型能够给出正确引导。

图说:全面升级的全链条工具体系

全链条工具体系再巩固

今年7月,上海AI实验室在正式发布书生·浦语的同时,在业内率先开源了覆盖数据、预训练、微调、部署和评测的全链条工具体系。历经数月升级,书生·浦语全链条开源工具体系巩固升级,并向全社会提供免费商用。

其中,“书生·万卷”是上海AI实验室开源的多模态语料库,包含文本数据集、图文数据集、视频数据集三部分,数据总量超过2TB。目前,书生·万卷1.0已被应用于书生·多模态、书生·浦语的训练,为模型性能提升起到重要作用。

除大模型外,InternLM仓库也开源了预训练框架InternLM-Train。深度整合Transformer模型算子提升了训练效率,并提出独特的Hybrid Zero技术,显著提升训练过程中的通信效率,实现了高效率千卡并行,训练性能达行业领先水平。

据悉,InternLM支持对模型进行全参数微调,支持丰富的下游应用。同时,低成本大模型微调工具箱XTuner也在近期开源,支持多种大模型及LoRA、QLoRA等微调算法。通过XTuner,最低仅需 8GB 显存即可对7B模型进行低成本微调,在24G显存的消费级显卡上就能完成20B模型的微调。

而OpenCompass是上海AI实验室开源的大模型评测平台,构建了包含学科、语言、知识、理解、推理五大维度的评测体系,支持超过50个评测数据集和30万道评测题目,支持零样本、小样本及思维链评测,是目前最全面的开源评测平台。自7月发布以来,受到学术界和产业界广泛关注,目前已为阿里巴巴、腾讯、清华大学等数十所企业及科研机构广泛应用于大模型研发。

书生·浦语团队同时开源了智能体框架,支持用户快速将一个大语言模型转变为多种类型的智能体,并提供典型工具为大语言模型赋能。

基于书生·浦语大模型,上海AI实验室已经发展出更丰富的下游应用,将于近期陆续向学术及产业界分享。

面向大模型掀起的新一轮创新浪潮,上海AI实验室致力于以原始创新引领技术进步,持续打造综合能力更强大的基础模型,构建更完整易用的全链条工具体系,并坚持通过开源开放、免费商用,全面赋能整个AI社区生态的繁荣发展,帮助企业和研究机构降低大模型的开发和应用门槛,让大模型的价值在各行各业中绽放。

新民晚报记者 郜阳

今日热点

网友评论 小提示:您要为您发表的言论后果负责,请各位遵守法纪注意语言文明
您还能输入300
最新评论 [展开]

新民报系成员|客户端|官方微博|微信矩阵|新民网|广告刊例|战略合作伙伴

新民晚报|新民网|新民周刊|新民晚报社区版

新民晚报数字报|新民晚报ipad版|新民网客户端

关于新民网|联系方式|工作机会|知识产权声明

北大方正|上海音乐厅|中卫普信|今日头条|钱报网|中国网信网|中国禁毒网|人民日报中央厨房

增值电信业务经营许可证(ICP):沪B2-20110022号|互联网新闻信息服务许可证:31120170003|信息网络传播视听节目许可证:0909381

广电节目制作经营许可证:(沪)字第536号|违法与不良信息举报电话15900430043|网络敲诈和有偿删帖跟帖评论自律管理承诺书

|沪公网安备 31010602000044号|沪公网安备 31010602000590号|沪公网安备 31010602000579号

新民晚报官方网站 xinmin.cn ©2023 All rights reserved