CSIG企业行—合合信息-5_中国图象图形学学会

学会活动

CSIG企业行—合合信息-5

发布时间：2023-03-22 来源：中国图象图形学学会分享：

2023年3月18日，由中国图象图形学学会（CSIG）主办，CSIG文档图像分析与识别专业委员会、上海合合信息联合承办的第五期CSIG企业行——走进合合信息于线上线下成功举办，吸引了1万余人次在线观看。

本次活动以“图文智能处理与多场景应用技术展望”为主题，特邀来自上海交通大学、厦门大学、复旦大学、中国科学技术大学等知名学府的学者与合合信息技术团队一道，面向行内研究者分享图像文档处理中的结构建模、底层视觉技术、跨媒体数据协同应用、生成式人工智能及对话式大型语言模型等研究及实践成果。

合照.jpg 图 1 研讨会嘉宾合影

会议伊始，合合信息科技股份有限公司创始人、CEO镇立新博士致辞，镇博士代表合合信息全体员工对各位嘉宾及参加本次活动朋友们表示热烈欢迎。镇博士向与会代表介绍了合合信息，并表示，合合信息在智能文字识别（OCR）、图像处理、自然语言处理（NLP）、知识图谱、大数据挖掘等核心技术领域深耕十余年，自主研发的扫描全能王、名片全能王等C端产品深受全球上亿用户的欢迎，服务了30个行业的企业客户。镇博士指出，希望通过这次活动，增进彼此之间的友谊和合作，寻求产学研合作机会，为推动图像图形及人工智能行业的发展和进步贡献智慧和力量。

图片2.png

图 2 镇立新博士致辞

随后，CSIG文档图像分析与识别专业委员会主任金连文教授进行了致辞，金连文教授向各位与会代表介绍了中国图象图形学学会概况，包括学会组织架构、开展的各种学术会议、学术活动、讲习班、会员服务、科技评奖、成果鉴定等服务，欢迎大家加入学会成为会员，也欢迎大家积极参加CSIG举办的各种学术活动。

图片3.png

图 3 金连文教授致辞

理论探索：生成式人工智能将成为未来十年的研究重心

据国际IT研究机构Gartner预测，到2025年，生成式人工智能产生的数据将占据人类全部数据的10%。生成式人工智能技术正加速数字经济的发展。“企业行”活动中，上海交通大学人工智能研究院常务副院长、长江学者杨小康分享了团队在生成式人工智能领域的工作，并表示，目前的生成式人工智能还存在解空间巨大、宏观一致性差、微观清晰度受限等问题，需要通过数学、物理、信息论、脑认知、计算机等学科交叉研究，进一步夯实生成式人工智能的基础理论，通过“物理+数据”联合驱动，“虚拟+现实”深度融合，助力科学发现的加速。

图片5.png

图 4 杨小康教授作“生成式人工智能与元宇宙”主题报告

杨小康认为，以“识别——分析”为代表的判别式人工智能推动了人工智能前十年的发展，接下来十年，以“合成——重建”为代表的生成式人工智能将成为主流。

近期频频上“热搜”的ChatGPT是生成式人工智能的典型代表。复旦大学计算机学院教授、上海市计算机学会自然语言处理专委会主任邱锡鹏提到，强大的情景学习能力、思维链能力和自然指令学习能力是以ChatGPT为代表的对话式大型语言模型的主要特点，将加速通用人工智能的实现。

图片6.png

图 5 邱锡鹏教授作“对话式大型语言模型”主题报告

据悉，今年2月，复旦大学自然语言处理实验室发布了国内第一个对话式大型语言模型“MOSS”，引发业内广泛关注，邱锡鹏是主要作者之一。“文本所承载的知识只是冰山一角，还有很多‘暗知识’并不是以文本形式记录的。在未来的发展里，人工智能还有‘具身学习、跨模态学习’等更多知识领域需要学习。”邱锡鹏说。

学术前沿：复杂场景多模态数据分析与理解进展迅速

人工智能要实现多场景“通用”，需要解决多源数据的问题。“文本、图像、视频是互联网上存量最大的数据，需研发相关算法对其进行有效管理。”厦门大学科技处处长、人工智能研究院负责人纪荣嵘教授认为，社交媒体等信息渠道包含了海量非合作、异构化、跨模态的数据，既蕴藏了大量的人类知识与高价值信息，也包含了各种自然与人为的噪声，对其分析与处理需要融合类脑计算、计算机视觉、自然语言处理等多个维度的智能技术。

图片7.png

图 6 纪荣嵘教授作“复杂跨媒体数据协同分析与应用”主题报告

纪荣嵘指出，连接视觉与自然语言的“视觉描述”领域，是最受关注且最具潜力的人工智能研究任务之一。视觉和语言的研究应是双向的，各自的新发现、新方法可以互相迭代促进。跨空间、跨领域、跨任务知识迁移方面有较大探索空间，易于发现新的科学问题。

落地实践：图像文档结构分析、底层视觉技术发展受关注

近年来，人工智能与OCR（光学字符识别）技术的结合愈发紧密，图像文档中涉及的复杂结构如汉字结构、表格结构、文档总体结构的建模问题，逐渐成为研究热点。中国科学技术大学语音及语言信息处理国家工程研究中心副教授杜俊就团队在文档结构层次化重建领域的最新进展进行分享。

图片8.png 图 7 杜俊副教授作“面向图像文档的复杂结构建模研究”主题报告

“现阶段文档分析任务中，大多数研究是针对单页内的文章要素的解析，但从内容角度看，许多文档页与页之间内容有关联。”杜俊表示，图像文档处理能力要达到“篇章级”，突破手写、自然场景下的汉字建模难点，做好跨页文档的要素分类、文档结构恢复是团队的主要研究目标。

底层视觉是智能文档处理的重要研究方向之一，主要研究如何提高或恢复各类场景下的图像、视频内容，如清晰度提升，低质量及破损图像恢复等，相关理论和方法在手机图像采集与处理，医疗图像分析等领域发挥着至关重要的作用。合合信息图像算法研发总监郭丰俊博士针对目前底层视觉技术在处理形变、模糊、阴影遮盖、背景杂乱的文档时遇到的典型问题，就公司技术团队在智能图像处理技术模块、融合技术典型应用、图像安全领域等领域的研究成果进行了分享。

图片10.png

图 8 郭丰俊博士作“文档图像处理中的底层视觉技术”主题报告

郭丰俊提到，合合信息智能文档处理技术基于对图像目标区域的精准裁剪，对弯曲、倾斜透视的页面进行形变矫正，在去除阴影、摩尔纹后，通过人工智能技术对文档图像进行增强锐化和清晰度提升，达到“图像质量增强”的效果，在改善阅读体验的同时，也提升了识别转换、图像分析等文档处理下游任务的质效，相关技术已通过“扫描全能王”等智能文字识别产品，服务全球上百个国家和地区的上亿用户。

学术报告结束后，各位与会代表参观了合合信息展厅，与合合信息技术人员进行了热烈的交流互动。大会特邀嘉宾还与合合信息的技术研发人员就图形图像处理、人工智能等领域的前沿技术问题、产学研合作、ChatGPT技术发展趋势及对产业的影响等议题进行了深入广泛的讨论和交流。

图片4.png

图 9 学术研讨

本期CSIG企业行活动取得圆满成功，有力地促进高校、科研院所与企业的互动交流。下一步，学会将持续推进产学研用融合发展，积极为企业搭建技术、人才对接平台，也希望能够与领域内更多的企业加强合作，携手共进，推动图像图形领域的发展。