欢迎光临中国图象图形学学会官方网站,让我们一起努力,探索图象图形领域的广袤天地!
首页 > 学会动态 > 学会新闻

第十一期CSIG文档图像分析与识别专业委员会学术微沙龙成功举办

2022-09-20

1663660425684558.png

CSIG文档图像分析与识别专业委员会学术微沙龙(简称:文档图像微沙龙)在线学术报告会第十一期于2022年9月6日成功举行。本沙龙由中国图象图形学学会主办,文档图像分析与识别专委会发起承办,中国图象图形学报协办。本期活动邀请华南理工大学汪嘉鹏博士分享报告:面向多语言视觉富文档理解的探索与实践。微沙龙活动在B站、蔻享学术,中国图象图形学报视频号进行了同步直播。

 

1663660446107611.png

1663660451842194.png

本次活动由华中科技大学刘禹良研究员主持,华南理工大学汪嘉鹏博士做了题为“面向多语言视觉富文档理解的探索与实践”的学术报告。本次报告主要分为三个部分。

一、报告嘉宾首先介绍了团队在多语言视觉富文档理解领域的探索。该部分报告站在视觉信息抽取的视角下,讨论了近期的学界进展以及相关的研究背景和意义。为了解决某些语言无法收集到大规模文档数据来进行文档预训练的问题,其介绍了一种语言无关的视觉富文档预训练模型LiLT。在此模型中,文本信息和版式信息在预训练阶段被解耦并联合优化,而在微调阶段进行模态重组。该框架在进行语言无关跨模态交互的基础之上,在预训练阶段也为文本流和非文本流提出了一种高效的异步优化策略。其设计的新预训练优化任务也展现出较好的表现。在解决下游任务时,LiLT能够直接和现有的纯文本预训练模型权重协作解决实际问题。在八种语言和三种设置下的实验结果证明了LiLT的有效性和应用价值。

二、基于报告第一部分的探索和发现,团队付诸实践参加并获得CSIG2022中英文购物小票信息理解大赛分赛道与总决赛双冠军。该部分报告详细分析了该竞赛的特点与难点,并针对性地提出了基于多语言文档预训练模型主分支和目标检测辅助分支的实体分类与关系抽取算法。该方案同时也解决了tokenizer对数字和符号类文本的欠切分问题以及将未见过的字符解码成<unk>的异常问题。通过多任务共享的主干网络,模型的存储量和计算量显著地减少,性能也得到了进一步提升。其方案在输出端设计的模型预测与人工规则融合策略,以及针对多种实体类别设计的统一格式后处理解析规则,都对系统性能带来了显著的提升。

三、针对视觉信息抽取方法目前仍存在的一些亟待解决的问题,报告嘉宾提出了“如何更好利用多模态特征”、“上游任务(如OCR)对视觉信息抽取性能的限制”、“模型在跨数据域间的泛化能力”和“提高对数据的利用程度”几个未来可能值得研究的方向。最后,报告嘉宾回答了听众提出的一系列问题,并号召大家共同探究该领域尚未解决的难题。报告中涉及的LiLT相关代码已经开源至:https://github.com/jpWang/LiLT。

 

报告的论文:

Wang J, Jin L, Ding K. LiLT: A Simple yet Effective Language-Independent Layout Transformer for Structured Document Understanding[C]//Proceedings of the 60th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers). 2022: 7747-7757.

 

本次报告会获得了良好效果,我们期待更多优秀青年学子在文档图像领域取得研究进展,并在后续的沙龙报告会中踊跃参与、共同进步!

 

错过直播的同学可以前往B站观看回放视频,链接:

https://www.bilibili.com/video/BV1KP4y1Z7Y1

或微信扫描二维码观看

 

图片4.png