2024年11月23日,中国图象图形学学会“青托论坛”第二期活动在华中科技大学圆满举办。本次盛会汇聚了国内众多知名专家和学者,围绕图像图形学领域的未来发展方向展开深入探讨,并分享了最新的研究成果与实践经验。
图 1 会场全景
图 2 上午部分参会专家合影
23日上午,“青托论坛”在华中科技大学软件学院报告厅正式开展。CSIG青工委主任、华中科技大学软件学院院长白翔教授发表致辞,他表示,青托俱乐部是一个极具价值的平台,为年轻学者提供了良好的发展机会。他希望通过“青托论坛”进一步加强年轻学者之间的交流,同时促进领域内资深专家与年轻学者的深度互动,并期待论坛未来能够扩大参与范围,将博士后和博士生也纳入其中,共同推动学术进步与人才培养。随后,青托俱乐部主席、东南大学魏秀参教授详细介绍了CSIG青托俱乐部的发展历程、成员构成及未来的活动规划,并表明了“青托论坛”的宗旨为“学术至上,奉献成长”。
图 3 CSIG青工委主任、华中科技大学软件学院院长白翔教授致辞
图 4 CSIG青托俱乐部主席魏秀参教授介绍CSIG青托俱乐部
随后,活动正式进入报告环节。中南大学邹北骥教授作了题为《医疗人工智能及其应用》的学术报告。他首先简要回顾了人工智能的发展历程及其最新技术与方法,重点阐述了医疗人工智能在典型应用场景中的实践与创新。结合其团队师生近十年的研发成果,邹教授详细介绍了基于眼底视网膜图像的病灶检测与识别方法及智能诊断技术,同时分享了其团队开发的慧眼医疗云平台的功能与实际应用。最后,邹教授结合多年的研究经验,分享了自己的深刻体会与见解。
图 5 中南大学邹北骥教授作题为《医疗人工智能及其应用》的学术报告
湖南大学方乐缘教授带来了题为《资源受限遥感影像处理》的报告。报告中,方教授首先指出,深度学习因其卓越的性能已广泛应用于遥感影像处理与分析。然而,高性能的深度学习模型通常依赖于海量数据、精确标注和强大的计算能力,而在星载/机载遥感的实际应用中,数据量、标注质量及计算资源受限,严重制约了智能模型在遥感领域的应用。为此,方教授提出了几种创新方法:首先,针对遥感影像数量和质量受限的问题,提出了跨图像关联的半监督遥感图像处理方法,成功摆脱了对原始海量高质量数据的依赖;其次,针对遥感影像标注困难及时间成本高昂的问题,提出了点标签智能解译方法,在保证处理精度的同时,显著降低了标注成本;最后,针对遥感领域计算资源的限制,提出了一种高效的网络层压缩方法,在不影响推理精度的前提下,显著减少了存储和计算开销。
图 6 湖南大学方乐缘教授作题为《资源受限遥感影像处理》的报告
中国科学技术大学的常晓军教授在报告中以《基于视觉语言导航的具身智能探索》为题,深入探讨了具身智能领域的前沿研究。他详细阐述了视觉语言导航的核心思想,即通过融合视觉感知与自然语言理解,指导智能体在真实或模拟环境中实现目标导向的导航任务。报告涵盖了多模态导航模型的构建、路径规划策略的优化以及智能体在动态复杂场景中的适应性评估,展示了其研究在任务成功率和环境泛化能力上的突破,为具身智能技术的发展提供了新的思路与启示。
图 7 中国科学技术大学的常晓军教授作题为《基于视觉语言导航的具身智能探索》的报告
西安电子科技大学的王楠楠教授在报告《对抗环境下的可信视觉分析》中指出,大数据和人工智能在推动行业与社会变革性进步的同时,也面临着不可忽视的风险和挑战。基于深度学习的视觉模型已经暴露出其固有特性所引发的严重隐患,其中,模型对噪声干扰的脆弱性导致其在实际应用中存在安全性和可信度问题。本报告聚焦于视觉分析中的鲁棒性问题,特别是对抗噪声的干扰。王教授基于对抗学习的框架,结合人类认知启发及领域知识,从数据、模型和决策三个维度,提出了一系列旨在提升深度学习系统可靠性的方法。这些方法针对数据噪声净化、模型鲁棒性增强及预测偏差纠正等方面,旨在促进可信视觉分析的实现。
图 8 西安电子科技大学的王楠楠教授作题为《对抗环境下的可信视觉分析》的报告
中国科学技术大学的周文罡教授带来了题为《视频手语智能问答系统》的报告。手语作为聋人日常沟通交流的重要工具,在促进聋人与听人之间的沟通方面起着至关重要的作用。为了搭建这一沟通桥梁,视频手语智能问答系统的目标是能够理解聋人使用的手语视频,并根据其语义问题,通过手语视频的形式进行回应。报告详细介绍了该系统的关键技术,包括视频手语识别、手语转写翻译、检索增强生成问答、手语视频合成等。周教授还展示了课题组在这些领域的创新成果,如视频手语预训练学习方法、半监督手语转写翻译方法、基于LLM的检索增强可行对齐方法和交互手动画生成方法。最后,报告展示了面向政务咨询场景的智能手语问答原型系统。
图 9 中国科学技术大学周文罡教授作题为《视频手语智能问答系统》的报告
东南大学的魏秀参教授带来了题为《细粒度图像分析及其应用初探》的报告。细粒度图像分析是视觉感知学习的基础研究领域,具有重要的应用价值,尤其在智能新经济和工业互联网等领域。随着细粒度图像分析的应用场景不断拓展到多维领域,传统上假设的静态封闭环境不再适用,面临着开放动态环境的挑战。魏教授在报告中针对监督信息不足、样本分布长尾以及检索数据庞大等常见问题,介绍了课题组在细粒度图像分析领域的相关研究成果,并分享了在人民生命健康和国家重大需求方面的应用实践。
图 10 东南大学的魏秀参教授作题为《细粒度图像分析及其应用初探》的报告
图 11 部分下午报告专家合影
北京大学智能学院的查红彬教授带来了题为《具身视觉与 SLAM:在线学习的选径》的报告。具身智能的本质是实现心智功能与身体、行为、环境之间的多层次反馈闭环,强化智能体与环境的紧耦合。而SLAM(同步定位与地图构建)是具身智能研究中的核心要素,负责同步完成传感器的即时定位与环境地图的构建。为了提升具身视觉系统在真实复杂场景中的泛化能力,必须充分确保视觉系统的环境自适应性,而在线学习方法是实现这一目标的有效途径。查教授在报告中介绍了基于在线学习的SLAM问题,分享了课题组在这一领域的最新研究成果。报告的主要内容包括:利用在线学习系统的忘却机制进行动态SLAM算法的研究;基于单目视频处理的全景三维几何与实例语义重建;基于在线持续学习的自适应VIO(视觉惯性里程计)系统;以及利用隐式地图全局性与不确定性表达能力的自主建图方法。
图 12 北京大学查红彬教授作题为《具身视觉与 SLAM:在线学习的选径》的报告
南昌大学的闵卫东教授带来了题为《网络时代的大数据智能新方法》的报告。在网络时代的背景下,大数据的崛起为人工智能带来了全新的方法论。深度学习与大数据的结合,已成为解决人工智能问题的热门新途径,既带来了诸多研究与创新机会,也面临着技术瓶颈和挑战。报告结合了闵教授在加拿大及回国后,在视觉大数据、智慧城市等领域的研究成果,详细阐述了基于大数据和深度学习的新解决方案,并介绍了这些技术在智能视频识别与监控、智慧公共安全保障系统、智慧医疗、智慧能源互联网等领域的先进应用和新成果。报告还深入探讨了大数据与深度学习结合在行人异常行为识别、人脸识别、行为识别、交通视频识别、生物与医学数据处理、遥感数据处理等方面的技术进展。最后,闵教授还讨论了深度学习与大数据相结合在仿人脑智能、5G技术、信息安全等领域应用中面临的挑战。
图 13 南昌大学的闵卫东教授带来了题为《网络时代的大数据智能新方法》的报告
清华大学长聘教授鲁继文带来了题为《视觉感知与具身智能》的报告。具身智能是人工智能与机器人领域的研究热点,广泛应用于工业、农业、服务业及信息产业等多个领域,具有重要的应用前景。报告回顾了近年来视觉感知与具身智能的主要研究进展,涵盖了多模态环境感知、自主定位与巡航、机器人视觉操作、大模型端侧部署等技术。同时,报告还探讨了这些技术在公共安全、工业制造、清洁服务、低空经济等领域的应用,并对未来的发展趋势进行了展望。
图 14 清华大学鲁继文教授作题为《视觉感知与具身智能》的报告
华中科技大学计算机学院的张瑞教授带来了题为《面向推荐的多模态生成》的报告。随着苹果与OpenAI合作、GPT-4赋能Siri,AI个性化生成技术的热度迅速飙升,谷歌也加入了个性化聊天与Character.AI的竞争。本次报告概览了面向推荐的多模态生成技术,重点介绍了个性化多模态生成技术的最新进展。报告探讨了如何基于大模型将个性化偏好融入多模态生成内容,使AI能够为用户“量身定制”输出。这些技术可广泛应用于即时通信、电商、在线广告、游戏及创作辅助等领域,实现个性化背景、人体形态、颜色、表情、角色等内容的生成。
图 15 华中科技大学张瑞教授作题为《面向推荐的多模态生成》的报告
清华大学副研究员王鑫带来了题为《动态开放环境下的AIGC研究》的报告。生成式AI旨在通过人工智能技术创造文本、图像、视频等内容,已经在机器翻译、艺术创作等多个领域得到了广泛应用。近年来,基于预训练的大模型,如ChatGPT、Stable Diffusion等,极大推动了生成式AI的发展。然而,预训练的大模型通常难以满足动态变化的用户需求,且难以适应快速切换的应用场景。因此,面向动态开放环境的生成式AI研究变得尤为重要。报告首先探讨了在动态开放环境下,生成式AI研究面临的关键问题:如何更新生成式大模型以适应不断变化的新增用户需求。接着,王鑫副研究员提出了通过解耦学习来实现生成式AI模型的外泛化能力,并通过神经架构搜索提升生成式AI模型的推理速度和生成性能。最后,报告展望了生成式AI的未来研究方向。
图 16 清华大学王鑫副研究员带来了题为《动态开放环境下的AIGC研究》的报告
北京大学刘洋研究员带来了题为《具身智能场景下的多模态感知算法研究》的报告。本报告探讨了具身智能场景下的多模态感知算法,重点分析了智能体如何通过多模态感知实现对历史事件的时间定位、对当前环境的感知理解以及对未来的推理与规划。首先,报告分析了智能体如何通过回忆历史事件并进行时间定位,从而增强对过去情境的理解与记忆。接着,探讨了智能体在感知当前环境时的双重机制:一方面,通过被动解析和执行来自人类的指令,另一方面,主动感知周围环境。这两种机制协同工作,帮助智能体高效地理解并响应当前任务与情境。最后,基于感知数据与常识推理,智能体能够进行未来的规划与决策,从而提升其推理能力与决策支持水平。
图 17 北京大学刘洋研究员带来了题为《具身智能场景下的多模态感知算法研究》的报告
北京科技大学徐婧林副教授带来了题为《面向行为理解的细粒度运动分析》的报告。细粒度运动分析旨在通过精细化地分析人体动作序列,实现动作的细粒度识别、定位、姿态估计和质量评价,广泛应用于智能安防、智慧医疗、智能体育、智慧传媒等领域。报告重点介绍了细粒度动作定位、三维人体姿态估计以及细粒度动作质量评价等关键问题,探讨了如何在时间和空间上定位边界模糊的细粒度动作,如何在三维空间中估计深度不确定的人体姿态,以及如何从细粒度层面更精确地评价人体动作质量。报告中提出的研究成果将在体育运动、康复训练、体能测试和数字传媒等领域发挥重要作用。
图 18 北京科技大学徐婧林副教授带来了题为《面向行为理解的细粒度运动分析》的报告
论坛的尾声,本次论坛共同主席王兴刚教授代表全体与会人员向报告人和参会嘉宾表达了诚挚的感谢,并对未来的学术合作与青年人才培养寄予了殷切期望。
至此,为期一天的“青托论坛”圆满落幕。本次论坛不仅为年轻学者与领域内资深专家搭建了交流与合作的平台,也为推动学术进步与人才培养注入了新的动力。通过此次活动,进一步促进了青年学者间的深度互动,彰显了“学术至上,奉献成长”的宗旨。相信在未来,“青托论坛”将继续壮大影响力,为学术界和产业界培养更多卓越的人才,共同开创科技创新的崭新篇章。
Copyright © 2024 中国图象图形学学会 京公网安备 11010802035643号 京ICP备12009057号-1
地址:北京市海淀区中关村东路95号 邮编:100190