2025年11月28日,第五届CSIG机器视觉与智能研讨会在四川大学成功举办。本研讨会由中国图象图形学学会(CSIG)主办,CSIG机器视觉专委会和四川大学计算机学院(软件学院、智能科学与技术学院)联合承办,为CSIG机器视觉专委会2025年度学术会议。本研讨会采用线下讲座的方式进行,由彭玺教授、胡鹏教授主持,邀请了罗笑南教授、卢湖川教授、张军平教授、左旺孟教授、王楠楠教授、张利军教授、王兴刚教授等七位著名学者来做精彩的专题报告。研讨会现场座无虚席,有约160余位师生参加了会议。在特邀报告开始之前,大连理工大学卢湖川教授就开幕式致辞。本次研讨会主题广泛、报告内容充实,有力推动了中国图象图形学学会(CSIG)机器视觉专委会与国内外同行在人工智能前沿理论与技术领域的深入交流。

卢湖川教授致开幕词

研讨会现场合影
来自桂林电子科技大学的罗笑南教授作了题为“面向恶劣海洋环境的具身智能系统构建与应用验证”的专题报告。报告围绕具身智能在复杂海洋场景中的关键需求,重点介绍了具身智能系统的执行环境构建、学习平台设计以及应用验证方法论的整体框架。罗教授团队致力于研发一套完整的具身智能系统及其配套学习平台,并在恶劣海洋环境下的基础设施运维场景中开展验证实践,展示了具身智能技术在真实海洋任务中的可行性与应用潜力。该报告为具身智能在海洋领域的落地提供了重要思路和技术参考。

罗笑南教授报告
来自大连理工大学的卢湖川教授作了题为“视觉内容感知生成”的专题报告。围绕生成模型在人工智能领域中的关键进展与核心挑战,卢教授系统阐述了高效生成模型训练、跨模态持续优化、多模态深度理解以及个性化内容生成等方向的最新研究成果。他指出,通过创新训练框架可以显著提升大模型的效率,推动生成技术进一步普及;同时,生成模型的能力正不断延展至多模态学习,在图像、视频、音频等多源数据间实现智能推理与融合,持续提升模型表现。在多模态理解方面,新范式有效增强了模型处理视觉与语言信息的协同能力,使其能够更准确把握复杂语义结构。此外,定制化内容生成技术的突破,使模型能够按照用户需求生成高度个性化的图像与视频,为多样化应用场景提供了更具灵活性与价值的解决方案。此次报告为视觉内容生成技术的未来发展提供了富有洞见的前沿指引。

卢湖川教授报告
来自复旦大学的张军平教授作了题为“回到视觉 – 从莫拉维克悖论说起”的专题报告。张教授从计算机视觉视角切入,深度探讨了当前人工智能快速发展过程中对大规模语言模型、海量数据与超大算力的高度依赖是否真正符合人类智能的发育规律。他结合莫拉维克悖论重新审视了人类智能的基本构成及其发展顺序,指出视觉感知在智能形成中的独特地位与优势。报告进一步强调,在人工智能未来的发展路径上,如果以视觉为优先切入点,有望开辟不同于现有范式的突破方向,为通用人工智能研究提供新的理论启示与技术思路。此次报告为重新理解智能的本质以及重构人工智能发展路线提供了具有前瞻性的重要视角。

张军平教授报告
来自哈尔滨工业大学的左旺孟教授作了题为“可控视频生成与应用”的专题报告。左教授围绕近年来快速发展的AI视频生成技术,重点解析了其在可控性和应用拓展方面的最新进展与关键挑战。他从相机与3D视角可控、物理一致性约束以及长视频生成等维度系统介绍了提升视频生成可控性的核心方法。同时,他指出,随着生成技术的日益成熟,视频生成模型正逐渐成为一系列视觉任务的重要基础能力。报告以视频插帧和图像编辑为例,展示了视频生成先验在视频增强与图像编辑场景中的潜在价值与应用前景。此次报告为可控视频生成技术的发展与跨任务融合提供了重要参考。

左旺孟教授报告
来自西安电子科技大学的王楠楠教授作了题为“高效视觉内容生成”的专题报告。王教授围绕视觉内容生成模型在高计算复杂度下面临的能耗与碳排放挑战,系统介绍了从架构设计、推理流程优化到模型量化的全链路轻量化技术路径。报告重点阐述了三方面工作:通过优化网络架构降低参数规模与激活量,以显著减少模型计算负担;通过设计单步推理算法,有效缩短生成模型的推理时延;通过实施低比特模型量化,在保持稳定训练的前提下进一步压缩模型规模。这三项研究彼此协同,共同构建了面向边缘与端侧应用需求的高效生成模型解决方案,为在资源受限场景下实现绿色低碳与性能平衡提供了可行路径。此次报告为未来大模型轻量化方向的发展提供了专业且务实的技术指引。

王楠楠教授报告
来自南京大学的张利军教授作了题为“基于梯度符号的随机优化”的专题报告。张教授围绕近年来在大模型训练等实践中表现突出的梯度符号类随机优化方法,深入分析了其理论研究相对滞后的现状,并系统阐述了团队在提升收敛性能方面的最新突破。报告指出,现有相关理论通常依赖强假设或仅能获得次优收敛速率。为此,团队分别引入动量机制与方差约减技术,以增强梯度符号的稳定性,从而显著改进随机算法的收敛表现。具体而言,在单机环境中,团队针对一般非凸优化问题取得了最优收敛速率;在分布式场景下,则在保持通信效率的同时大幅提升了算法的理论收敛性能。此次报告为随机优化理论的完善与大规模模型训练的高效化提供了重要的理论支撑与方法参考。

张利军教授报告
来自华中科技大学的王兴刚教授作了题为“面向视觉理解生成和规划的高效率表征学习”的专题报告。王教授系统介绍了团队在视觉理解、视觉生成以及视觉规划领域构建的高效率表征学习体系,重点围绕表征有效性与计算、数据效率展开。报告在视觉生成方向总结了VA-VAE与LightningDiT等创新方法,这些技术成功突破高维潜在空间中重建与生成的优化瓶颈,实现了高性能且高效的扩散式生成模型,并进一步推出了可在手机端实现实时视频解码的Turbo-VAED。在多模态大模型方面,团队基于Mamba架构研制了具有线型复杂度的mmMamba,在兼顾精度的同时显著提升推理速度。在视觉理解任务上,团队发布了性能超越SAM-3的图像分割大模型LENS。在视觉规划方面,提出了生成式端到端自动驾驶模型DiffusionDrive,通过截断扩散策略实现多样化与高效率的驾驶决策,并结合3DGS数字孪生技术构建了强化学习后训练范式RAD。报告全面展示了从基础表征构建到具身智能落地的完整研究体系,为视觉智能的未来发展提供了系统性方法框架与技术参考。

王兴刚教授报告
本次研讨会内容丰富、主题前沿,全面展示了机器视觉及相关领域在理论创新、算法方法、系统设计与实际应用等方面的最新进展。来自全国多所高校的专家围绕具身智能、生成模型、多模态大模型、视觉理解与规划、优化理论等关键方向进行了深入交流,现场互动热烈,思想与技术的碰撞激发出新的研究启示。本次研讨会不仅促进了国内机器视觉与智能领域学者之间的广泛交流,也为推动我国人工智能与机器视觉研究的持续发展提供了重要借鉴与动力,会议取得了圆满成功。
Copyright © 2025 中国图象图形学学会 京公网安备 11010802035643号 京ICP备12009057号-1
地址:北京市海淀区中关村东路95号 邮编:100190