您现在的位置:首页 > 民生 > 科创 > 正文

亮相VAlSE2023,合合信息智能文档处理技术获业内关注

来源:新民晚报     记者:金志刚     作者:金志刚     编辑:易蓉     2023-06-16 11:18 | |

图说:VALSE Workshop环节,合合信息技术代表就《智能文档图像处理技术应用与实践》主题进行分享  采访对象提供(下同)

近期,2023年度视觉与学习青年学者研讨会 (Vision And Learning SEminar, VALSE) 圆满落幕。会议由中国人工智能学会、中国图象图形学学会主办,江南大学和无锡国家高新技术产业开发区管理委员会承办。超五千名专家学者、知名高校师生以及来自OPPO、华为、百度、合合信息等科技企业的研发人员齐聚大会,共探计算机视觉、图像处理、模式识别与机器学习前沿技术的发展与应用。

VALSE是一个面向计算机视觉与机器学习领域国内外华人青年学者的高规格学术研讨会,本届会议专注于视觉知识和多重知识表达、语言文字识别与理解等技术研发及应用热点。文档的智能化处理是计算机视觉在产业中的重要应用方向,现阶段还面临着诸多挑战。作为智能文档处理领域的代表,合合信息出席会议并进行智能文档处理技术研发与实践成果分享。

合合信息相关技术人员提到,随着OCR技术应用面的持续拓宽,复杂多变的版面、多样化的文本内容给文档的识别和还原带来了新的挑战。“版面分析与文档还原”技术对提升文档图像电子化的视觉效果、信息提取精准度非常关键,是合合信息重点发力的方向之一。

图说:图说:合合信息“版面分析与还原”技术处理效果展示

文档中通常含有大量的图片、表格等非文字内容,一篇普通的论文或者文稿,除文字信息外,其版面往往包含页眉、页脚、表格、二维码等多种元素。在向系统输入文档图像后,机器会对文字部分和版面元素进行分析和识别,把若干行文字关联起来,从而获得正确的顺序与段落关系,这便是版面分析技术。

版面分析的任务目标被分为物理版面分析和逻辑版面分析两类,前者主要解决区域分割问题,后者则关注区域之间的逻辑关系或阅读顺序。如何精准地辨别各类元素,并在文档电子化过程中让它们回归到应有的位置,是该项技术的难点之一。

图说:合合信息“智能文档处理——文档还原系统架构”展示

如果无法提升版面分析的精准度,文件材料在被拍照、扫描成电子文档的过程中便可能出现漏字、错位的现象,图片转Word、图片转Excel等“可编辑”性的需求将无法被满足。

“版面分析与文档还原技术能够帮助机器‘看懂’文档结构,让文档电子化获得‘所见即所得’的处理效果。”分享环节中,合合信息技术人员提到,文档图片的格式转化流程中,在检测、识别完文字信息中的字符、坐标信息,以及版面中段落、印章、表格等元素信息后,机器才能“理解”文档的组成,更好地将图像“还原”成一个可编辑的Word或Excel文件。

据了解,合合信息版面分析技术通过解决版面分割、区域间的逻辑关系处理等方面的难题,可将文档图像切分成不同类型内容(文本、图形、公式、表格等)的区域,并分析区域之间的关系,让机器更精准地确定文档中的文字位置、字体、大小和排版方式,从各类版式复杂的图片文档中精准获取信息。

新民晚报记者 金志刚


今日热点

网友评论 小提示:您要为您发表的言论后果负责,请各位遵守法纪注意语言文明
您还能输入300
最新评论 [展开]

新民报系成员|客户端|官方微博|微信矩阵|新民网|广告刊例|战略合作伙伴

新民晚报|新民网|新民周刊|新民晚报社区版

新民晚报数字报|新民晚报ipad版|新民网客户端

关于新民网|联系方式|工作机会|知识产权声明

北大方正|上海音乐厅|中卫普信|今日头条|钱报网|中国网信网|中国禁毒网|人民日报中央厨房

增值电信业务经营许可证(ICP):沪B2-20110022号|互联网新闻信息服务许可证:31120170003|信息网络传播视听节目许可证:0909381

广电节目制作经营许可证:(沪)字第536号|违法与不良信息举报电话15900430043|网络敲诈和有偿删帖跟帖评论自律管理承诺书

|沪公网安备 31010602000044号|沪公网安备 31010602000590号|沪公网安备 31010602000579号

新民晚报官方网站 xinmin.cn ©2023 All rights reserved