您现在的位置:首页 > 民生 > 科创 > 正文

化学领域大模型ChemGPT 1.0诞生 为人工智能时代分子智造提供新工具

来源:新民晚报     记者:郜阳     作者:郜阳     编辑:钱文婷     2023-12-04 14:48 | |

图说:项目负责人介绍ChemGPT 1.0功能  采访对象供图

新民晚报讯(记者 郜阳)12月2日,2023国际产学研用合作会议(上海)分子科学与生命健康论坛举行。论坛上,华东师范大学发布了化学领域大模型ChemGPT 1.0。

研发团队负责人、化学与分子工程学院教授何晓介绍,ChemGPT 1.0是一个集成了先进人工智能技术的化学合成工具。在上海市教委的大力支持下,华东师范大学于2021年成立了分子智造上海市前沿科学研究基地,由化学与分子工程学院和计算机科学与技术学院组建了联合研发团队,开展了AI4ChemicalScience的探索,致力于人工智能驱动的化学研究,将机器学习技术与化学合成相结合,以提高合成的效率和精度。两年来,研究团队通过深入研究化学性质数据库、创新性引入物理描述符以及全新泛函CF22D的开发,成功构建了ChemGPT 1.0,为人工智能时代的分子智造提供了新工具。

何晓称,ChemGPT 1.0具有三大亮点——

首先是高质量化学对话数据集的构建。ChemGPT 1.0整合了超过39万条高质量对话数据,包括734种化学性质问答类数据、11679种科学类(含化学)问答类数据和658种化学类问答类数据以及超过一万条百科词条,转化成了超过207万条问题数据集。基于对化学领域专业知识的广泛收集和深入理解,构建的数据集为全面、准确地完成化学知识问答提供了强大支撑。

其次是化合物逆合成数据库的创建。针对化合物逆合成的难题,团队通过数据拼接、叠加、加权和合成方式筛选,构建了一个全新的逆合成数据库。该数据库规模宏大,提高了模型的鲁棒性和反应性,且具有高质量的标注数据,提升了模型的准确性和可靠性。通过更好的数据平衡,显著提高了模型对各类反应的预测能力。在USPTO-50K测试任务中,经过新数据集训练的大模型ChemGPT 达到了74.4%预测精度,位列第一。

还有就是对话模型和逆合成模型的创新改进。ChemGPT 1.0的对话模型和逆合成模型分别基于ChatGLM和LLaMA模型。通过全量微调以及在A800 GPU集群上两个月的训练,性能显著提升。此外,通过多模型多模块融合技术的实施,使得ChemGPT 1.0无需安装任何插件,就能支持化学专业知识、化学逆合成、生物医药以及通用领域的知识问答。此外,ChemGPT 1.0还支持自动上网查资料,帮助模型返回高质量的实时回答并具备绘画功能。

在此基础上,研发团队成功完成了自动化学合成反应技术体系的整体构建和框架设计。结合超限制造成果,以微流控芯片为基础的化学合成节省了80%的实验时间。由AI化学家—“小华”驱动的微缩合成工厂,实现了化合物的自动化合成,为化学合成领域带来了革命性的变化,展示了人工智能在生物医药领域的巨大潜力。

ChemGPT 1.0是华东师范大学在AI For Science领域的又一重要成果,研发团队将在此基础上,进一步优化提升拓展功能,助推上海人工智能和生物医药重点领域加速向全球创新链、产业链、价值链的高端迈进。


今日热点

网友评论 小提示:您要为您发表的言论后果负责,请各位遵守法纪注意语言文明
您还能输入300
最新评论 [展开]

新民报系成员|客户端|官方微博|微信矩阵|新民网|广告刊例|战略合作伙伴

新民晚报|新民网|新民周刊|新民晚报社区版

新民晚报数字报|新民晚报ipad版|新民网客户端

关于新民网|联系方式|工作机会|知识产权声明

北大方正|上海音乐厅|中卫普信|今日头条|钱报网|中国网信网|中国禁毒网|人民日报中央厨房

增值电信业务经营许可证(ICP):沪B2-20110022号|互联网新闻信息服务许可证:31120170003|信息网络传播视听节目许可证:0909381

广电节目制作经营许可证:(沪)字第536号|违法与不良信息举报电话15900430043|网络敲诈和有偿删帖跟帖评论自律管理承诺书

|沪公网安备 31010602000044号|沪公网安备 31010602000590号|沪公网安备 31010602000579号

新民晚报官方网站 xinmin.cn ©2023 All rights reserved