VALSE 2022在津召开,金山办公携表格还原突破进展亮相
8月22日-24日,国内顶尖学者与创新企业齐聚天津国家会展中心,共同参加由中国人工智能学会主办的视觉与学习青年学者研讨会(VALSE 2022)。在「可解释的深度学习算法与视觉应用」分论坛上,金山办公技术总监、CV团队负责人熊龙飞发表《复杂场景下的表格还原》演讲,展示了公司在表格识别领域取得的创新进展。
一款办公应用的优秀与否,除产品自身的业态是否成熟外,是否能在各种复杂应用场景下展现高效办公性能也是很重要的考量因素。比如,在“如何将不可编辑的表格重新变成便于复制粘贴和编辑的电子文档”这一行业难提前,金山办公便在30多年的技术沉淀和公司引以为傲的程序员文化下向行业与公众交出了一份满意的答卷。 熊龙飞指出,标准PDF里的表格,或者扫描规整、清晰的表格相对容易识别,很多转化引擎都支持该类表格的转化还原。但对于更加复杂场景下的表格,比如,严重变形、有复杂排版、朝向随机、像素模糊、有印章或其他背景图案干扰、存在嵌套关系、甚至没有表格线的表格文件,目前市面上大多数产品的识别转化效果都差强人意。 近年来,金山办公在以CV技术为支撑的OCR识别、表格识别领域已达到业界领先水平。对复杂场景下的表格还原技术难题,金山办公研发了一套识别系统,通过多种自研算法,在密集文本、不规则表格或无框表格、带印章、签名等干扰的文档元素上取得了不错的识别和转换效果。 除了满足基本的文档内容识别,金山办公通过加入深度学习能力,对文字属性做了一系列算法优化,能够更精准地还原文档风格,对诸如颜色、字体、加粗、斜体和下划线等格式都能进行精细识别,显著提高文档还原度,为用户节省大量后期手动调整的时间和精力。 据介绍,该系统由近二十个深度学习模型、一百多个算法模块、50多万行代码构成,拥有复杂的功能模块和调度流程,支持各类图片输入,无论是扫描件、网上下载的图片,亦或是手机截图、随手拍的照片等均可进行转化识别。云端和本地两端均可部署,支持输出xlsx表格、word文档、html等多种格式的文件。 演讲现场,熊龙飞通过一系列样张展示了该系统的识别能力,对于质量模糊、带印章的表格图片、甚至是被揉成一团后展开的实体表格,通过系统识别后都达到了极高的还原度。
“该系统可以在⽇常办公、财务表格转化、政府⼯作等领域节约⼤量人工编辑所产生的时间成本,极大地提高办公效率。”熊龙飞表示。 金山办公在过去34年坚持深耕办公赛道,秉持技术立业,不断打磨技术和产品服务。公司承担多项国家级重大科研项目研发任务,包括“核高基”科技重大专项、电子发展基金、“863”高技术研究发展计划等,并先后两次荣获国家科技进步二等奖。 公司在近年持续加大AI领域的研发投入,并把OCR、版面的识别和理解列为重点任务。早在2018年,公司就成立了CV团队,聚焦WPS等产品上图像及视觉项目的研发与应用,通过CV能力赋能各类办公场景,目前已在OCR文字识别、文档矫正、智能抠图、字体识别、表格还原、版式还原、PDF编辑等二十多个功能上线相关产品和服务。 目前,金山办公为来自全球220多个国家和地区的用户提供办公服务。截至2022年6月,公司主要产品月度活跃设备数为5.7亿,其中WPS office PC版月度活跃设备数2.32亿,移动版月度活跃设备数3.34亿。 VALSE 2022由中国图象图形学学会、中国人工智能学会主办,天津大学承办,天津工业大学、天津科技大学和天津市人工智能学会等单位协办,旨在为计算机视觉、图像处理、模式识别与机器学习研究领域内的中国青年学者提供一个深层次学术交流的舞台。截至目前,VALSE已成功举办十一届,是中国内最大规模的机器视觉学术盛会。
|
|||||||||||