第9期CSIG文档图像分析与识别专业委员会学术微沙龙成功召开

学会动态

第9期CSIG文档图像分析与识别专业委员会学术微沙龙成功召开

发布时间：2022-06-13 来源：中国图象图形学学会分享：

640 (1).png

CSIG文档图像分析与识别专业委员会学术微沙龙（简称：文档图像微沙龙）在线学术报告会第九期于2022年6月7日成功举行。本沙龙由中国图象图形学学会主办，文档图像分析与识别专委会发起承办，中国图象图形学报协办。本期活动邀请复旦大学计算机科学技术学院的李斌研究员分享报告: 聚焦文本区域的场景图像超分辨率研究。微沙龙活动在B站、蔻享学术，中国图像图形学报视频号进行了同步直播，人气2000以上。

本次活动由复旦大学计算机科学技术学院在读博士生余海洋主持，复旦大学计算机科学技术学院的李斌研究员做了题为“聚焦文本区域的场景图像超分辨率研究”的学术报告。报告首先简要介绍了场景文本识别的应用与难点，并指出较为常见的场景文本识别难点——低分辨率尚未引起研究者的足够重视。接着，报告嘉宾简要回顾了已有的通用图像超分辨率与文本图像超分辨率工作，并分析了现有文本图像超分辨率方法的局限性，即：现有文本图像超分辨率工作尚未较好的利用文本图像中的文本信息。之后，报告嘉宾着重介绍了两种聚焦文本区域的图像超分辨率方法。其中，受启发于“非注意盲视”的心理学现象，报告嘉宾团队提出聚焦字符区域的图像超分辨率方法，通过引入文本图像中字符的位置和内容引导超分辨率网络进行文本图像的恢复；受启发于“格式塔”心理学，团队提出聚焦笔画区域的图像超分辨率方法，通过对字符在笔画层级上的细粒度拆解，进而引入字符的笔画位置信息引导文本图像恢复。

最后，报告嘉宾对文本图像超分辨率任务进行了总结与展望，并回答了听众提出的一系列问题。此外，报告嘉宾介绍了其团队近期关于中文文本识别基准的相关工作，该工作标准化了中文文本识别的评测方式、数据集划分等规范，为中文文本识别相关研究工作提供基准。报告中涉及的文本图像超分辨率方法开源地址为https://github.com/FudanVI/FudanOCR; 中文文本识别基准工作开源地址为：https://github.com/FudanVI/benchmarking-chinese-text-recognition.

本次报告会获得了良好效果，我们期待更多优秀青年学子在文档图像领域取得研究进展，并在后续的沙龙报告会中踊跃参与、共同进步！

报告的论文：
[1] Jingye Chen, Bin Li, Xiangyang Xue. Scene Text Telescope: Text-Focused Scene Image Super-Resolution. CVPR, 2021.
[2] Jingye Chen, Bin Li, Xiangyang Xue. Zero-Shot Chinese Character Recognition with Stroke-Level Decomposition. IJCAI, 2021.
[3] Jingye Chen, Haiyang Yu, Jianqi Ma, Bin Li, Xiangyang Xue. Text Gestalt: Stroke-Aware Scene Text Image Super-Resolution. AAAI, 2022.
[4] Jingye Chen, Haiyang Yu, Jianqi Ma, Mengnan Guan, Xixi Xu, Xiaocong Wang, Shaobo Qu, Bin Li, Xiangyang Xue. Benchmarking Chinese Text Recognition: Datasets, Baselines, and an Empirical Study. arXiv:2112.15093.
错过直播的同学可以前往B站观看回放视频，链接：
https://www.bilibili.com/video/BV18Z4y1t7ti?t=0.0
或微信扫描二维码观看:

640 (4).png