您现在的位置：首页 > 民生 > 科创 > 正文

大模型技术哪家强？上海人工智能实验室发布开源开放评测体系“司南”

来源：新民晚报记者：郜阳作者：郜阳编辑：夏扬 2024-01-31 15:15

图说：“司南”大语言模型中英双语客观评测前十名采访对象供图

新民晚报讯（记者郜阳）大模型技术哪家强？30日，上海人工智能实验室科学家团队正式发布大模型开源开放评测体系“司南”（OpenCompass2.0），可以为大语言模型、多模态模型等提供一站式评测服务。

据介绍，“司南”全面量化模型在知识、语言、理解、推理和考试等五大能力维度的表现，评测榜单涉及的大语言模型和多模态大模型超过150个，客观中立地为大模型技术的创新提供坚实的技术支撑。截至目前，已有包括Meta、阿里巴巴、腾讯、百度等30余家国内外企业和科研机构采用“司南”助力开展技术研发。

同日，还揭晓了年度大模型评测榜单，对过去一年来主流大模型进行全面评测诊断。分析结果显示，GPT-4 Turbo在各项评测中均获最佳表现，国内厂商近期发布的模型紧随其后，包括智谱清言GLM-4、阿里巴巴Qwen-Max、百度文心一言4.0都获得不错的成绩。

记者了解到，基于全新升级的能力体系和工具链，“司南”构造了一套高质量的中英文双语评测基准，涵盖语言与理解、常识与逻辑推理、数学计算与应用、多编程语言代码能力、智能体、创作与对话等多个方面。通过高质量、多层次的综合性能力评测基准，“司南”创新了多项能力评测方法，实现了对模型真实能力的全面诊断。

总体而言，大语言模型整体能力仍有较大提升空间；复杂推理相关能力仍旧是大模型普遍面临的难题，国内大模型相比于GPT-4还存在差距；中文场景下国内最新的大模型已展现出独特优势，在部分维度上接近GPT-4 Turbo的水平；此外，开源模型进步很快，以较小的体量达到较高性能水平，表现出较大的发展潜力。

上海人工智能实验室领军科学家林达华表示，对大模型“打分”要做到客观公允、方式科学、维度全面，“对模型的能力评测不仅是技术进步的度量衡，更是推动模型迭代和优化的重要驱动力。”

另据介绍，基于“司南”大模型评测体系，司南大模型评测伙伴计划正式启动。未来，“司南”将与各行业的头部企业机构一起，构建各类高质量行业评测基准，致力于推进大模型在千行百业应用落地和实践。

举报我要爆料联系电话：962555 新民网新闻未经授权不得转载

顶

网友评论小提示：您要为您发表的言论后果负责，请各位遵守法纪注意语言文明

您还能输入300字

最新评论 [展开]

新民晚报数字报

聚合

企业资讯