您现在的位置:首页 > 民生 > 科创 > 正文

合合信息智能文档处理技术亮相2023第十二届中国智能产业高峰论坛

来源:新民晚报     记者:金志刚     作者:金志刚     编辑:蔡骏     2023-09-20 15:40 | |

近日,2023第十二届中国智能产业高峰论坛(CIIS 2023)在江西南昌举行。本次大会重点关注AI大模型、生成式AI、无人系统、智能制造、数字安全等领域,汇集了来自中国工程院、国际欧亚科学院、国际核能院等多个学术机构的院士开展主题报告演讲、专题论坛研讨。近200位人工智能领域专家学者同场交流分享,吸引了线上线下超千万人次观会。

图说:《多模态大模型与文档图像智能理解》专题论坛现场    来源/采访对象供图

行业的发展离不开信息传递,文档是信息传递最常见的载体之一。智能文档处理技术历来是学术界重点关注的领域,多模态大模型可以利用大量的数据进行预训练,有效解决文档图像质量及自然语言处理技术限制问题。大会期间,中国人工智能学会(CAI)模式识别专委会与合合信息共同承办了《多模态大模型与文档图像智能理解》专题论坛,论坛主席为华南理工大学金连文教授、复旦大学邱锡鹏教授。来自清华大学、华中科技大学、复旦大学、百度、科大讯飞、合合信息等研究机构和企业的技术专家,围绕行业焦点议题展开探讨。

“大模型的出现势必对行业带来巨大的影响,文档图像的分析、识别、理解与大模型技术间存在互补关系。”合合信息智能技术平台事业部副总经理、高级工程师丁凯博士在《文档图像预训练模型的探索与思考》分享中提到,在互联网语料“见底”之日逐渐逼近之时,电子书成为了大模型训练的新“燃料”,而电子书很多是由文档图像组成的,文档图像识别分析与智能理解技术可以将大量的文档图像转化为具有丰富格式信息的文本,为大模型提供更丰富更高质量的训练语料,解决大模型训练的“token荒”问题。

文档图像技术已走过百年历程,但文档图像质量退化、文字检测及版面分析困难、非限定条件文字识别率低、结构化智能理解能力差等问题,如今仍是工业化落地中的难题。丁凯认为,文档图像处理技术在推动大模型技术发展的同时,大模型的小样本学习能力、多任务能力、智能涌现能力对于文档图像处理问题的解决具有重要的研究价值。

“在已有的学术研究中,文档图像专有大模型在更复杂的文档理解问题上存在天然的短板,而一些多模态大模型已经表现出了从含有表格、图片等多重元素的文档中提取关键信息进行分析,理解内容的潜力。”丁凯表示,研究人员可以基于现有的领域做更好的融合,开辟新的研究方向。

图说:合合信息智能技术平台事业部副总经理、高级工程师丁凯博士进行《文档图像预训练模型的探索与思考》主题分享

合合信息-华南理工大学文档图像分析识别与理解联合实验室也对以下行业前沿问题进行了研究,包括如何将文档图像识别分析的各种任务定义为序列预测的形式,通过不同的AI提示词(prompt)引导模型完成不同的文档图像识别分析与理解任务,让模型更好地支持篇章级的文档图像识别分析。

大模型蓬勃生长的背面,大量经过人工、生成式AI篡改合成的图片被用于散播谣言、经济诈骗,AI图像内容安全也成为了文档大模型发展中亟待解决的痛点。丁凯表示,合合信息智能文档处理技术覆盖了图像预处理、解析识别到AI安全等文档图像处理全生命周期,在端到端提升文件处理效率、准确率的同时,有效保障用户及企业数据安全。

今年8月,合合信息战胜了来自全球的上千支参赛团队,获得了文档分析与识别国际会议(ICDAR 2023)“文本篡改检测”赛道冠军。合合信息技术团队提出的方案能够在保持极低误检率的同时,准确识别并定位图片中文本的篡改行为,从而有效保障文本信息的真实性。相关方案此前已在银行、证券、保险多个场景中应用。此前,合合信息曾获得ICPR、ICFHR 等十余项文档图像处理、文字识别领域国际竞赛冠军。

新民晚报记者 金志刚

今日热点

网友评论 小提示:您要为您发表的言论后果负责,请各位遵守法纪注意语言文明
您还能输入300
最新评论 [展开]

新民报系成员|客户端|官方微博|微信矩阵|新民网|广告刊例|战略合作伙伴

新民晚报|新民网|新民周刊|新民晚报社区版

新民晚报数字报|新民晚报ipad版|新民网客户端

关于新民网|联系方式|工作机会|知识产权声明

北大方正|上海音乐厅|中卫普信|今日头条|钱报网|中国网信网|中国禁毒网|人民日报中央厨房

增值电信业务经营许可证(ICP):沪B2-20110022号|互联网新闻信息服务许可证:31120170003|信息网络传播视听节目许可证:0909381

广电节目制作经营许可证:(沪)字第536号|违法与不良信息举报电话15900430043|网络敲诈和有偿删帖跟帖评论自律管理承诺书

|沪公网安备 31010602000044号|沪公网安备 31010602000590号|沪公网安备 31010602000579号

新民晚报官方网站 xinmin.cn ©2023 All rights reserved