2024年11月24日,第四届CSIG机器视觉与智能研讨会在东北大学成功举办。本研讨会由中国图象图形学学会(CSIG)主办,CSIG机器视觉专委会和东北大学信息科学与工程学院联合承办,为CSIG机器视觉专委会2024年度学术会议。本研讨会采用线下讲座的方式进行,由贾同教授主持,邀请了林宙辰教授、卢湖川教授、刘连庆研究员、王贺升教授、张辉教授、刘祥龙教授、郭裕兰教授、刘铭副研究员等八位著名学者来做精彩的专题报告。研讨会现场座无虚席,有约200余位师生参加了会议。在特邀报告开始之前,东北大学信息科学与工程学院常务副院长丁进良教授致欢迎词,大连理工大学卢湖川致开幕词,贾同教授作为研讨会执行主席对会议筹备情况及团队研究情况进行了总体汇报。本次研讨会主题多样,报告内容丰富,促进了中国图象图形学学会(CSIG)机器视觉专委会与国内外同行在人工智能领域前沿理论与技术方面的交流。
图 1 研讨会上半场
图 2 研讨会下半场
图 3 丁进良教授致欢迎词
图 4 卢湖川教授致开幕词
图 5 贾同教授汇报团队研究情况
来自北京大学的林宙辰教授带来了题为“具有万能逼近性质的深度神经网络设计:一阶优化方法”的报告。林宙辰教授为我们详细介绍了如何基于一阶优化算法来设计具有万能逼近能力保证的深度神经网络架构。通过把优化算法转化为计算图,然后用特定的可学习模块替换每个梯度更新项,就可以得到宽度有界(即其宽度不会随着逼近精度的提高而增加)的深度神经网络架构。林宙辰教授展示了不同一阶优化算法启发的多种多样的深度神经网络架构,丰富的实验验证了设计理论的有效性。
图 6 林宙辰教授报告
来自上海交通大学的王贺升教授带来“基于视觉的机器人定位导航与控制”的报告。王贺升教授首先对服务机器人的产业技术与发展现状进行概述,并指出该方向目前发展的瓶颈。接着介绍其研究团队在机器人定位导航方向取得的一系列研究成果,包括复杂大场景中移动机器人视觉融合的鲁棒感知定位,不依赖先验环境信息的自适应视觉伺服框架等。最后,王贺升教授展示了未来研究方向,为我们提供了有效的启示。
图 7 王贺升教授报告
来自大连理工大学的卢湖川教授为大会带来了题为“视觉内容感知生成“的报告,深入剖析了生成模型领域的最新进展及其在实际应用中的潜力。报告聚焦于如何通过技术创新应对生成模型的复杂挑战,并展望了其未来的发展方向。卢教授指出,生成模型作为人工智能领域的重要方向,已经从单一的生成能力扩展到更加多样化的实际需求。然而,领域中仍存在高效模型训练、跨模态优化、多模态理解和个性化生成四大核心挑战。他强调,通过构建创新框架,可以显著提升模型的训练效率,使生成技术更加普及易用。在多模态学习方面,卢教授展示了生成模型如何在图像、视频、音频等多种数据中实现智能推理与信息融合,进一步增强了模型对视觉和语言等复杂语义的协同理解能力。此外,个性化生成技术的突破,使模型能够精准生成满足用户需求的图像和视频,推动了艺术创作、教育和自动驾驶等商业领域的广泛应用。卢教授的报告展现了生成模型在科学研究和产业应用中的巨大潜力,为领域的发展提供了重要启示,也激励了更多研究者和实践者参与到这一前沿领域中来。
图 8 卢湖川教授报告
来自北京航空航天大学的刘祥龙教授为大家带来了题为“资源受限条件下的高效视觉感知”的报告。在报告中,刘祥龙教授首先介绍了模型压缩技术在当前资源受限场景中的实际应用价值,尤其是在边缘设备(如手机、嵌入式设备)中的重要性。通过将深度网络模型中的参数、激活值和梯度从传统的32位量化为更低的8位、4位甚至2位,可以极大地降低存储和计算成本。然而,低比特量化的核心挑战在于如何平衡模型的压缩率与精度损失。为解决这个难题,刘祥龙教授介绍了团队近年来围绕卷积、Transformer以及大模型等典型模型开展的低比特量化工作。如异常值抑制量化方法通过网络等价变换解决大模型异常值问题,有效提升了大模型低比特量化精度;残值二值量化方法首次以近1比特位宽实现大模型的极致压缩和可用性。此外,刘祥龙教授强调了数据分布和信息保持在量化技术中的重要性。刘教授的报告让我们耳目一新,加深了我们对于这一领域的了解和认识。
图 9 刘祥龙教授报告
来自湖南大学的张辉教授为大会带来了题为“复杂电力场景下无人机多模态智能感知技术及应用”的报告。张辉教授深入分析了无人机在复杂电力场景下巡检任务中所面临的挑战,包括环境复杂性、信息不完全性和传感器感知的局限性。为解决这些难题,张教授团队提出了一种结合可见光图像、红外图像、点云与多光谱数据的多模态智能感知技术。报告中详细介绍了团队在这一领域的研究成果,主要包括:自适应图像配准与预测信息迁移技术来应对多模态数据的空间对齐问题;利用不同模态间的互补性,设计基于点云与多光谱数据融合的树障分类方法,提升了巡检任务的精度与效率;开发多模态信息协同的杆塔倾斜检测与语义分割技术,增强了复杂环境下电力设施巡检的智能化水平。这场报告让我们认识到无人机巡检在复杂电力场景中的挑战,以及多模态感知技术如何成为解决这些挑战的有效手段,给我们留下了深刻的印象。
图 10 张辉教授报告
来自哈尔滨工业大学的刘铭副研究员在其主题为“工业视觉缺陷检测及领域大模型”的报告中,深入探讨了工业制造中视觉缺陷检测的前沿技术与实践创新。报告重点介绍了应对工业复杂场景和多样化缺陷的创新性解决方案。刘铭副研究员指出,由于工业产品种类繁多、制造工艺复杂以及缺陷形式多样,传统视觉模型在适应新产品、新工艺和新缺陷方面存在明显不足。为此,团队提出了两大解决路线。(1)自适应生成模版图像方法:基于扩散模型和定制化图像生成技术,针对工业缺陷检测中待检样本与正常模版自适应匹配的问题,开发了一种高效的生成模版方法,大幅提升了缺陷检测的准确性与灵活性。(2)工业视觉缺陷检测领域大模型:结合视觉-语言大模型在通用任务中的强大理解能力,提出了一种适用于工业领域的视觉缺陷检测大模型。通过引入视觉专家模块,并利用语言模型的泛化能力,这一模型显著改善了工业缺陷检测的适应性和鲁棒性。报告不仅展示了工业视觉缺陷检测的技术突破,还为智能制造领域的未来研究提供了新的切入点。
图 11 刘铭副研究员报告
来自中山大学的郭裕兰教授作了题为“大规模动态三维场景感知、理解与生成”的学术报告。报告从深度感知、三维重建、点云语义理解和三维内容生成等方面逐步展开,系统讲述了三维视觉领域的最新研究进展。前三部分聚焦三维视觉领域的难点与挑战,第四部分则展示了当前的研究热点。针对这些难点,郭裕兰教授分享了多项创新方法和前沿思路。例如,在双目深度估计方面,设计了基础模型驱动的即插即用模块,并引入包含几何约束的损失函数,显著提升了双目深度估计模型的泛化性能;在点云配准中,通过设计点云柱状表示并构建基于柱状卷积的点云局部特征,大幅提高了配准精度、效率和泛化性;在大规模点云分割任务中,提出了可高效处理百万级别点云数据的网络框架。此外,郭裕兰教授还展示了世界模型驱动的四维时空理解、基于多模态大模型的三维场景生成、面向开放世界的三维场景CAD重组等方面的研究进展与成果。这些工作为三维视觉领域的发展提供了新的研究思路。
图 12 郭裕兰教授报告
来自中国科学院沈阳自动化所的刘连庆研究员作了题为“机器人的生物传感、驱动和智能化”的报告,分享了其团队在新型智能化探索方面的前沿研究成果。他指出,硅基智能随着计算机和人工神经网络的发展取得了显著进步,但在能效和适应开放场景能力方面,与碳基智能相比仍有差距。尤其在复杂环境中,碳基智能展现出了更高的灵活性和效率。 为解决这些挑战,刘连庆研究员介绍了其团队在生命系统与机电系统的细胞尺度融合方面的研究进展。通过微纳操控技术,研究团队成功建立了基于活体细胞的传感部件和驱动部件,为智能系统的物质基础提供了新的突破。这些融合系统能够精准感知和适应外部环境,为智能技术的发展提供了全新思路。 此外,他还详细阐述了类生命机器人的研究进展,特别是在生物传感、驱动和智能化方面的创新应用。他展示了如何利用生物3D打印技术和类脑器官培养,制造出能够感知和驱动的“体外脑”,并将其与传感和驱动系统相结合,构建了高度智能化的片上脑系统。这些类生命机器人具备自我修复、感知、运动和决策能力,能够在动态复杂环境中高效执行任务,展现出远超传统机器人的灵活性与适应性。 刘连庆研究员强调,这一研究不仅为智能系统的能效提升和智能化发展提供了新的方向,也为类生命机器人在医疗、环境监控、智能制造等领域的应用开辟了广阔前景。未来,生物传感、驱动和智能化的结合有望引领智能技术的革命性突破。
图 13 刘连庆研究员报告
最后,北京大学林宙辰教授作闭幕发言,肯定了本次研讨会的重要价值和意义。本次研讨会中,每位教授都给大家带来了精彩且丰富的报告,现场的老师、学生间的问答与沟通碰撞出了知识的火花。本次中国图象图形学学会机器视觉与智能研讨会不仅推动了图象图形学科的普及,也加强了机器视觉与智能领域内研究者之间的交流,取得了圆满成功!
图 14 林宙辰教授总结致辞
Copyright © 2024 中国图象图形学学会 京公网安备 11010802035643号 京ICP备12009057号-1
地址:北京市海淀区中关村东路95号 邮编:100190