登录会员系统  |  联系我们  |  加入学会  
学会动态
2025年CSIG文档图像分析与识别专委会多模态大模型与可视文本智能(OCR)学术论坛成功举办
发布时间:2025-04-03      来源:中国图象图形学学会      分享:

2025年3月30日,CSIG文档图像分析与识别专委会多模态大模型与可视文本智能(OCR)学术论坛在天津南开大学成功举办。

本次学术论坛由中国图象图形学学会(CSIG)主办,由CSIG文档图像分析与识别专委会联合南开大学计算机学院共同承办,是国内文档图像分析与识别领域的学术盛会。论坛吸引了包括众多国内顶尖高校以及华为、字节跳动、联想、金山等知名企业的150余位专家学者现场参会。

image.png

图 1 参会来宾合影 image.png

图 2 论坛现场

本次论坛聚焦于大模型时代的文档图像分析领域所面临的新挑战、新问题和新机遇,致力于展示OCR及多模态大模型领域的最新进展与研究成果。论坛设置了两场主旨演讲、三场特邀报告以及一场圆桌讨论,为专家学者提供了深入探讨与交流的机会,共同推动相关领域的发展。

出席论坛开幕式的嘉宾包括:中国科学院自动化研究所刘成林研究员、华南理工大学金连文教授、中国科学技术大学谢洪涛教授、清华大学彭良瑞副教授、华中科技大学刘禹良研究员、北京科技大学杨春副教授、北京元石科技有限公司方山城算法技术专家等业内知名学者。

开幕式与主旨演讲

论坛的开幕式和主旨演讲环节由南开大学杨巨峰教授主持。杨巨峰教授介绍了此次论坛的报告专家和日程安排,并向支持和积极参与论坛的各位来宾致以诚挚感谢。

在开幕式上,南开大学计算机学院院长刘哲理教授和CSIG常务理事、CSIG文档图像分析与识别专委会首届主任华南理工大学金连文教授分别代表承办单位发表了开幕致辞。他们对各位参会专家学者的到来表示衷心的欢迎并预祝会议圆满成功。

 image.png

图 3 刘哲理教授代表南开大学计算机学院致辞

 image.png

图 4 金连文教授代表CSIG文档图像分析与识别专委会致辞

随后,中国科学院自动化研究所刘成林研究员和华南理工大学金连文教授依次为论坛做了主旨演讲。

中国科学院自动化研究所刘成林研究员带来了题为“几何题目自动求解方法探索”的主旨演讲。报告聚焦数学推理与自动问题求解这一前沿研究方向,深入探讨了深度学习与大模型技术在几何题目求解中的应用,并分享了团队在数据集构建、模型评估及跨模态推理方面的最新研究成果。刘成林研究员指出,几何题目求解是一个典型的多模态理解与推理问题,涉及几何图形分析、文本理解及跨模态信息融合。随着大模型技术的发展,数学自动求解迎来了新的机遇,但仍面临视觉-语言对齐、符号推理与神经网络结合等挑战。在报告中,他详细介绍了团队在几何图形分析、题目数据集构建及混合推理方法上的创新工作。通过构建高质量的几何题目数据集,团队系统评估了大模型在几何问题求解中的性能,并提出了一种融合神经网络与符号推理的新方法,显著提升了复杂几何问题的求解能力。此外,他还展望了未来研究方向,包括更加准确的几何图形形式语言描述、大规模几何题数据库标注和评价、多模态数学大模型的构建与应用等。

 image.png

图 5 刘成林研究员作主旨演讲

华南理工大学金连文教授带来了题为“古籍文档的视觉-语言理解:从OCR到大模型”的主旨演讲。报告回顾了大语言模型(LLMs)的快速发展及其在垂直领域的应用潜力,并重点介绍了团队在古籍OCR、文档图像修复及垂域大模型研究方面的最新进展。金连文教授指出,古籍文档的智能理解面临标注数据不足、噪声干扰严重、书写风格多样、板式结构复杂和字符类别庞大等挑战。近年来,大模型技术的突破为古籍数字化与智能分析提供了新的解决方案。在报告中,他详细介绍了团队研发的面向古文智能理解的多模态大模型“通古”,该模型专门针对古籍文档理解与古代语言文化智能问答,采用增量预训练、指令微调等先进方法,显著提升了古籍文本识别与语义理解的准确性。此外,他还探讨了AIGC时代下OCR与大模型技术的融合趋势,并对未来研究方向提出展望。

 image.png

图 6 金连文教授作主旨演讲

特邀报告

论坛的特邀报告环节由中国科学技术大学谢洪涛教授主持。在特邀报告环节,论坛特别邀请了华中科技大学刘禹良研究员、北京科技大学杨春副教授和北京元石科技有限公司方山城算法技术专家三位青年学者分享OCR及多模态大模型领域的最新进展与研究成果。

华中科技大学刘禹良研究员带来了题为“浅析DeepSeek-R1及其在文档图像智能中的应用”的报告。报告深入剖析了这款开年爆火的开源大模型的核心技术优势与应用前景。刘禹良研究员指出,DeepSeek-R1以仅相当于OpenAI o1模型5%的成本投入,实现了与之媲美的性能表现,其成功源于GRPO强化学习训练策略和PTX硬件优化等关键技术突破。该模型自发布以来迅速风靡全球,登顶多国应用商店榜首,用户增长速度远超同类产品。报告从数理逻辑、长文本理解、古籍翻译、金融图表和复杂多步骤指令等五个关键维度系统评估了模型性能,并详细解读了其核心技术。在文档图像处理领域,DeepSeek-R1展现出独特优势。报告同时客观分析了模型当前存在响应慢、存在幻觉问题和不支持多模态的技术局限,并对未来在文档智能处理领域的发展方向进行了展望。

 image.png

图 7 刘禹良研究员作特邀报告

北京科技大学杨春副教授带来了题为“开放环境下的文档图像理解及多模态大模型技术”的报告。报告聚焦智能驾驶、内容安全等开放场景中的文档分析技术新挑战。杨春副教授强调,开放环境下不断涌现的新数据、新模式给传统文档分析技术带来了前所未有的挑战。报告重点介绍了团队在开放环境文本检测和文字识别方面的创新成果,以及多模态大模型研究的最新进展。针对未来发展方向,杨春副教授提出了开放环境下文档智能大模型的技术路线图,为应对复杂多变的实际应用场景提供了新思路。

 image.png

图 8 杨春副教授作特邀报告

北京元石科技有限公司方山城博士带来了题为“大模型驱动的智能设计:指令式图形文本图像生成”的报告。报告深入探讨了设计图生成这一技术难题的创新解决方案。方山城博士指出,尽管大语言模型在文本生成领域取得突破,但涉及多模态内容耦合的设计图生成仍面临重大技术挑战。报告系统阐述了大模型驱动智能设计的核心原理与架构范式,重点介绍了团队在多模态图层式设计图生成和智能设计自动化方面的创新实践。报告客观剖析了当前技术瓶颈,并对大模型在智能设计领域的应用前景进行了展望,为行业技术发展提供了重要参考。

 image.png

图 9谢洪涛教授主持特邀报告、方山城博士做特邀报告

圆桌讨论

论坛的圆桌讨论环节由南开大学周宇教授主持。

在圆桌讨论环节,围绕“大模型时代可视文本智能(OCR)的机遇与挑战”这一主题,嘉宾们针对“文档图像和自然场景图像的信息密度差异问题”、“文档图像中生成和理解任务的关系”和“多模态大模型的发展对手写文字识别的促进作用”等文档分析领域前沿问题上展开了深入的讨论。

各位嘉宾积极分享了实践经验与创新见解,提出了一系列前瞻性建议,为推动多模态大模型在文档分析领域的进一步发展提供了宝贵的建议。

 image.png

图 10 论坛圆桌讨论环节

结语

伴随着热烈的讨论,本次论坛于2025年3月30日下午圆满落幕。

论坛学术议程丰富多元,包含两场深度主旨报告、三场前沿特邀报告以及一场聚焦行业发展的圆桌讨论。活动吸引了众多国内顶尖高校,以及华为、字节跳动、联想、金山等知名企业的150余名专家学者现场参与,充分展现了该领域的学术热度与产业关注。

本次论坛为青年学者与领域内资深专家搭建了一个开放而广阔的交流平台,与会者围绕OCR技术革新、多模态大模型应用、行业技术瓶颈等核心议题展开了深入研讨。主旨演讲呈现基础研究突破,特邀报告分享技术创新成果,圆桌讨论则碰撞出产学研融合的新思路。

本次论坛的成功举办,不仅为文档图像分析与识别领域的研究者提供了思想交流的宝贵机会,更通过促进学术界与产业界的深度对话,为未来技术突破和实际应用奠定了坚实基础。让我们共同期待下一届论坛带来更多精彩观点与创新成果!


Copyright © 2025 中国图象图形学学会 京公网安备 11010802035643号   京ICP备12009057号-1

地址:北京市海淀区中关村东路95号 邮编:100190

技术支持:中科服