第八届文档分析与多模态大模型前沿理论与应用研讨会暨CSIG文档图像分析与识别专委会学术年会成功举办

学会动态

当前位置：首页>学会动态>学会新闻

第八届文档分析与多模态大模型前沿理论与应用研讨会暨CSIG文档图像分析与识别专委会学术年会成功举办

发布时间：2024-12-09 来源：中国图象图形学学会分享：

2024年11月30日，第八届文档分析与多模态大模型前沿理论与应用研讨会·暨CSIG文档图像分析与识别专委会学术年会在上海成功举办。

本次大会由中国图象图形学学会（CSIG）主办，由CSIG文档图像分析与识别专委会和上海人工智能实验室共同承办，是国内文档图像分析与识别领域的学术盛会。

会议吸引了包括北京大学、清华大学、复旦大学等国内顶尖高校，以及华为、字节跳动、阿里巴巴等知名企业的近120位专家学者到现场参会。

640 (8).jpg

图 1 参会来宾合影

本次大会聚焦于大模型时代的文档图像分析领域所面临的新挑战、新问题和新机遇，旨在展示该领域的最新研究进展和技术应用。会议设置了丰富的学术环节，包括两场主旨报告、三场特邀报告、一场圆桌讨论以及四场青年论坛报告，为与会者提供了全方位、多视角的学术盛宴。

出席开幕式的嘉宾包括：CSIG常务理事、华南理工大学金连文教授，CSIG文档图像分析与识别专委会主任、北京科技大学殷绪成教授，专委会副主任、上海人工智能实验室乔宇教授，专委会秘书长、北京大学高良才副教授，清华大学代季峰副教授，华中科技大学刘禹良教授等业内知名学者。

开幕式与主旨报告

会议的开幕式和主旨报告环节由专委会主任、北京科技大学殷绪成教授主持。殷绪成教授介绍了此次论坛的报告专家和日程安排，并代表代表专委会向长期支持和积极参与会议的各位来宾致以诚挚感谢。

640 (9).jpg

图 2 殷绪成教授主持会议开幕式和主旨演讲

在开幕式上，会议承办单位——上海人工智能实验室领军科学家乔宇教授发表了热情洋溢的欢迎辞。他对各位参会嘉宾的到来表示衷心的欢迎，并简要回顾了文档图像分析与识别技术的发展历程，深刻分析了大模型技术兴起后文档图像分析与识别领域所面临的挑战和机遇。乔宇教授介绍了上海人工智能实验室在通用视觉领域取得的研究成果，并希望与各位同行进一步深化合作，共同推动多模态大模型技术在文档图像分析领域的创新发展。

640 (10).jpg

图 3 乔宇教授代表上海人工智能实验室致辞

随后，华南理工大学金连文教授和清华大学代季峰副教授依次为大会做了主旨演讲。

华南理工大学金连文教授带来了题为“AGI时代的光学文字识别”的主旨演讲，简要回顾了AI大模型的发展历史和多模态大语言模型的结构范式，分析了面向OCR垂域的多模态大模型若干最新进展，并详细介绍了其团队在OCR大模型研究方面的最新研究成果。金教授的演讲为与会者提供了深入了解多模态大模型在OCR领域潜力的宝贵机会，并为该领域未来的研究方向指明了方向。

640 (11).jpg

图 4 金连文教授作主旨演讲

清华大学代季峰副教授带来了题为“多模态基础模型研究”的报告，围绕多模态基础模型技术面临的训练数据规模小、视觉模型表征差、任务模态数量少、开放世界泛化弱四大挑战，分别介绍了其团队在互联网尺度的图文交错数据预训练、大规模视觉语言基础模型、通用任务解码器、基于大语言模型的通用智能体四个方面的研究与探索，并讨论了多模态基础模型发展的潜在方向。

640 (12).jpg

图 5 代季峰副教授作主旨演讲

特邀报告

会议的特邀报告环节由专委会副秘书长、南开大学周宇教授主持。在特邀报告环节，会议特别邀请了华中科技大学刘禹良教授、华东师范大学占鸿渐副研究员和阿里巴巴杨志博高级算法专家三位青年学者分享人工智能领域的最新进展与前沿成果。

华中科技大学刘禹良教授带来了题为“多模态大模型Monkey及其在文档图象智能中的应用”的报告，介绍了多模态大模型Monkey为处理高分辨率图像而设计的新结构范式，阐述了最新文档图文数据的生成方法，以及专为文档智能而设计的模型TextMonkey；同时，刘禹良教授还分享了小领域OCR模型在教育视频、半监督检测、视频检测识别等任务中的优势和最新进展。

640 (13).jpg

图 6 刘禹良教授作特邀报告

华东师范大学占鸿渐副研究员带来了题为“语义信息增强的文本识别”的报告，简要阐述了文本图像识别任务面临的挑战，并回顾了多模态文本识别方法的主要研究进展，重点介绍了其团队在基于简化语义特征生成的文本识别、基于视觉-词典指导的文本识别、基于视觉语言联合解码的文本识别三个方面的最新研究成果。这些成果展现了语义信息在提升文本识别性能方面的巨大潜力，为未来技术的进一步发展奠定了基础。

640 (14).jpg

图 7 占鸿渐副研究员作特邀报告

阿里巴巴通义实验室杨志博高级算法专家带来了题为“QwenVL在OCR&文档专项领域的发展与思考”的报告，阐述了多模态大模型和文档分析的发展路径，介绍了团队针对大模型文档分析能力构建的评测方法并分析了现有技术面临的困难，并分享了团队面向文档分析专项领域而提出的Omni-Parsing模型。该报告为与会者提供了多模态大模型在文档专项领域应用的全新视角和实践经验，展现了工业界前沿研究的创新成果。

640 (15).jpg

图 8 杨志博高级算法专家作特邀报告

圆桌论坛

会议的圆桌讨论环节由中国科学院深圳先进技术研究院付彬助理研究员主持。

在圆桌讨论环节，围绕“多模态大模型在文档分析领域的机遇与挑战”这一主题，嘉宾们在“多模态大模型对文档图像分析能力的增强”和“强推理的多模态大模型在文档分析领域的发展前景”等文档分析领域前沿问题上展开了深入的讨论。

各位嘉宾积极分享研究成果与实践经验与创新见解，提出了一系列前瞻性建议，为推动多模态大模型在文档分析领域的进一步发展提供了宝贵的建议。

640 (16).jpg

图 9 会议圆桌讨论环节

青年学者论坛

本次会议的下半场聚焦于青年学者在文档图像分析与识别领域取得的前沿研究成果，为青年研究者提供了一个展示创新工作、交流学术思想的重要平台。精彩的报告内容和开放的交流氛围吸引了大量青年研究者积极参与，充分体现了青年力量在推动该领域发展中的重要作用。

640 (17).jpg

图 10 青年学者论坛来宾合影

下午的报告由上海人工智能实验室OpenDataLab的商富凯主持，来自上海人工智能实验室的青年科学家石博天、何聪辉分别带来了题为“基于多模态大模型的高泛化性文档理解技术研究”和“MinerU：大模型时代的数字化工具”的青年学者报告，介绍了上海人工智能实验室在文档图像分析领域的最新研究成果；来自南京理工大学的曾港艳老师带来了题为“基于CLIP实现准确高效灵活的场景文字检索”的报告，分享了其团队在场景文字检索任务上的最新探索；来自中国科学院信息工程研究所的曾维超同学带来了题为“基于扩散模型和先验引导控制的场景文字编辑方法”的报告，介绍了他在高质量的场景文字编辑领域的研究心得。

微信截图_20241209094202.png

论坛的最后部分，各位嘉宾与听众就文档分析领域的前沿问题，结合各自的研究心得，展开了热烈的讨论与交流，现场洋溢着浓厚的学术气息与活跃的讨论氛围。

640 (8).jpg

图 12 参会来宾讨论与交流

结语

伴随着热烈的讨论，本次会议于2024年11月30日下午圆满落幕。

作为国内文档图像分析与识别领域的学术盛会，本次会议奉献了二场主旨报告、三场特邀报告、一场圆桌讨论和四场青年论坛报告，吸引了来自北京大学、清华大学、复旦大学等国内顶尖科研机构和华为、字节跳动、阿里巴巴等知名企业的近120位专家学者到现场参会。此外，约7000人通过线上直播的形式观看了会议的主旨报告。

本次会议为青年学者与领域内资深专家搭建了一个开放而广阔的交流平台，通过主旨报告、特邀报告、圆桌讨论和青年论坛的多元化学术活动，参会者在文档图像分析与识别领域的前沿研究、技术挑战和实践经验等方面展开了深入探讨。

通过促进同行间的密切交流，本次会议有力推动了文档图像分析与识别领域的前沿研究和探索，为未来的技术突破和实际应用提供了坚实的基础。最后，让我们一起期待下一届会议的到来！