CSIG武汉会员活动中心“东湖论坛”前沿论文分享会(第2期)CVPR2025预会议“工业视觉”专场于2025年4月12日成功举办,该活动由中国图象图形学学会(CSIG)主办,CSIG武汉会员活动中心,CSIG图像视频通信专业委员会、CSIG数字娱乐与智能生成专业委员会、CSIG视觉检测专业委员会承办。本次论文分享会组委会包括华中科技大学周瑜教授、华东师范大学张志忠副教授、中国科学院自动化研究所陶显研究员、华中科技大学曹云康博士,特邀报告讲者包括余文勇、朱炳科、罗绍元、张志忠、朱文兵、周瑜、李文峤、屈震、胡腾、王福运、孙菡、马雯芯、陈鹏光、陈洪等专家,报告会在中国图象图形学会视频号、B站、蔻享学术三个直播平台进行同步直播。本次在线学术报告会引起了广泛的关注,共计5500余位专家、学者、工程技术人员通过三个直播平台线上参与了报告会。
本次报告会由周瑜教授、陶显研究员、张志忠副教授、曹云康博士担任主持人。在报告会开场环节,CSIG图像视频通信专委会委员周瑜教授首先介绍了中国图象图形学学会以及相关系列活动,介绍了本次会议的各位嘉宾,然后周瑜教授介绍了计算机视觉在工业领域的广泛应用。
图 1 周瑜教授开场介绍环节
接着,CSIG副理事长、中山大学赖剑煌教授致辞。首先赖剑煌教授在致辞中欢迎参与此次会议的嘉宾和学者,随后赖剑煌教授介绍了工业检测对于国家发展的重要意义以及工业视觉对于推动智能化工业发展、提高生产效率、减低人工成本的重要意义,然后指出了CVPR论文在业界的重大影响力和高质量,CVPR2025中工业视觉相关的论文在业界备受关注,具有前沿性,本次会议旨在提前将CVPR2025的内容呈现给业界专家。
赖剑煌教授致辞环节
CSIG视觉检测专业委员会主任、湖南大学张辉教授致辞。在致辞中张辉教授感谢组委会为本次会议的精心准备,欢迎各位专家和同行的参与。随后张辉教授介绍了视觉检测专业委员会专注于图像检测和视觉测量,致力于推动学术界和产业界深度融合,最后张辉教授介绍了2025 CSIG大会即将在湖南长沙召开。
张辉教授致辞环节
在本报告环节,第一位嘉宾华中科技大学机械科学与工程学院余文勇副教授介绍了从单张图像中探索内在的正态模型。该方法通过独特设计的INP提取器,从测试图像本身动态提取与异常区域具有相同几何上下文和外观的正常区域作为INPs,避免了传统方法中因训练集正常模式与测试图像不匹配导致的检测误差。引入INP指导解码器,利用INPs重建正常模式,有效抑制异常特征的重建,使重建误差成为可靠的异常分数,提升检测精度。提出INP相干性损失,确保INPs准确代表正常特征,避免捕获异常信息;同时引入软挖掘损失,聚焦于难以优化的样本,进一步提升模型性能。INP-Former在多个权威数据集上展现出卓越性能。
余文勇副教授学术报告环节
第二位嘉宾中国科学院自动化研究所朱炳科助理研究员介绍了UniVAD方法。该方法通过结合聚类技术和视觉基础模型,精确分割图像中的组件,再匹配每个组件内的补丁级特征,检测结构异常,UniVAD 不需要在特定领域的数据上进行训练,仅需少量正常样本作为参考,即可检测新类别中的异常,适应性强,大大减少了模型的开发和部署成本,能够在工业、逻辑、医疗等多个领域的小样本异常检测任务中实现最先进的性能,提高检测精度,优于特定领域的异常检测模型。
朱炳科研究员学术报告环节
第三位嘉宾本田美国研究院罗绍元博士介绍了Towards Zero-Shot Anomaly Detection and Reasoning with Multimodal Large Language Models方法。该方法的核心是LTFM机制,其灵感来源于人类视觉检查行为。LTFM 机制能够自适应地选择并强调异常视觉标记,以便更好地为语言模型提供输入。除此之外,为了促进异常检测和推理的研究,建立了第一个视觉指令调优数据集 Anomaly-Instruct-125k 和评估基准 VisA-D&R。通过这些基准测试,研究发现当前的 MLLMs无法准确检测和描述图像中的细粒度异常细节。该方法无需训练,减少了模型的成本,利用 MLLMs 的强大推理能力,能够处理复杂的异常检测任务,通过 LTFM 机制,能够自适应地选择和强调异常特征,提高检测精度。
罗绍元博士学术报告环节
第四位嘉宾华东师范大学张志忠副教授介绍了基于持续扩散模型的异常检测方法。该研究发现扩散模型在持续学习过程中存在“忠实幻觉”和“灾难性遗忘”问题。随后,张志忠副教授介绍了一种持续扩散模型,其核心思想是通过梯度投影来实现稳定的持续学习。梯度投影通过对模型更新进行正则化,将梯度修改为保护已学知识的方向。此方法也会带来巨大的内存成本,因为过程中需要存储大量的信息。因此,张志忠副教授进一步介绍了一种基于线性表示传递性质的迭代奇异值分解方法(iSVD),该方法几乎不消耗内存,且几乎不会造成性能损失。此外,考虑到扩散模型对正常图像存在“过拟合”的风险,该方法提出了一种异常掩码网络来增强扩散模型的条件机制。该网络通过掩码异常特征,使扩散模型更关注异常区域的重建,同时避免对正常图像的过度拟合。实验结果表明该方法在持续异常检测任务中具有显著的优势,能够有效地缓解“灾难性遗忘”和“忠实幻觉”问题,同时保持对异常的高敏感度。
张志忠副教授学术报告环节
第五位嘉宾荣旗科技联合创始人朱文兵介绍了多模态工业异常检测数据集与方法。朱文兵董事介绍了Real-IAD D³数据集,该数据集包含高分辨率的 RGB 图像、伪 3D 深度图(通过光度立体视觉生成)以及微米级精度的 3D 点云的多模态数据,此外,该数据集包含 20 个产品类别,总计超过 150,000 张高分辨率图像,涵盖了比现有数据集更小的部件尺寸和更细小的缺陷,与现有数据集相比,Real-IAD D³ 在缺陷面积比例和缺陷区域比例上具有更大的范围,增加了数据集的难度,能够更好地推动异常检测算法的发展,数据集中的图像采集自真实的工业生产环境,更接近实际应用场景。朱文兵董事提到Real-IAD D³数据集的发布有助于促进多模态方法在实际工业场景中的应用和发展。
朱文兵董事学术报告环节
第六位嘉宾华中科技大学周瑜教授介绍了AnomalyNCD方法。周瑜教授提到在工业场景中,异常检测通常只能定位异常,但无法对异常进行分类,所以介绍了一种用于工业场景中异常类别发现的多类异常分类框架。AnomalyNCD方法首先通过主元素二值化(MEBin)技术,将主要异常区域分割成掩码,这一过程能够有效减轻错误检测对后续学习过程的影响。接着,利用掩码引导的对比表示学习,将网络的注意力集中在孤立的异常区域,并通过重新校正的伪标签来减少错误输入带来的混淆。在推理过程中,该方法采用区域合并策略,根据分类的异常区域来确定整体图像的类别,从而实现了区域和图像级别的灵活分类。AnomalyNCD的这种设计,使其在不需要在特定领域的数据上进行大量训练的情况下,仅需少量正常样本作为参考,就能检测新类别中的异常。在各数据集上的实验结果表明,AnomalyNCD在图像级和像素级的异常检测性能上均优于现有工作。
周瑜教授学术报告环节
第七位嘉宾上海科技大学李文峤硕士介绍了多传感器条件下的工业异常检测以及基于物理交互的动态工业异常检测研究。李文峤硕士提出了两种新的弱监督异常检测方法,应用于工业场景。一是基于聚类的方法,称为聚类中心;二是基于孪生自编码器的神经架构,适用于标记数据样本极少的弱监督场景。具体来说,利用数字孪生生成模拟正常运行的训练数据集,并结合少量真实机器的标记异常测量数据。通过构建多个高斯原型来捕捉正常样本的复杂分布,并利用薛定谔桥将正常样本的分布映射到这些原型上,同时将异常样本推开。真实设施监控系统的数据集上,与多种最先进的异常检测算法相比,所提方法在多个性能指标上表现更优。
李文峤硕士学术报告环节
第八位嘉宾中国科学院自动化研究所屈震博士介绍了Bayesian Prompt Flow Learning for Zero-Shot Anomaly Detection方法。屈震博士指出传统的零样本异常检测方法通常依赖于手工设计的文本提示或可学习的提示向量,但这些方法依赖手工设计的提示需要大量的专业知识和试错,单一形式的可学习提示难以捕捉复杂的异常语义,未约束的提示空间限制了对未见类别的泛化能力。为了解决上述问题,屈震博士介绍Bayes-PFL从贝叶斯视角出发,将提示空间建模为可学习的概率分布。该方法提出了两个模块,提示流模块学习文本提示中上下文词和状态词的分布,分别通过图像特定分布(ISD)和图像无关分布(IAD)来建模。ISD 动态适应输入图像,引入丰富的视觉语义;IAD 则学习统一的正常和异常语义。残差跨模态注意力模块用于更好地对齐动态文本嵌入与细粒度图像特征,通过跨模态交互增强模型性能。Bayes-PFL 在 15 个工业和医学数据集上进行了广泛的实验,结果表明该方法在零样本异常检测任务上达到了最先进的性能。
屈震博士学术报告环节
第九位嘉宾洛桑联邦理工学院博士生孙菡介绍了Anomaly Anything方法。孙菡博士提出Anomaly Anything 利用Stable Diffusion(SD)的图像生成能力,通过在测试时对单个正常样本进行条件约束,为任意类型的物体生成带有文本描述的未见异常。该方法通过最大化与异常标记相关的注意力值,引导 SD 的注意力集中在生成困难的异常概念上,利用更详细的异常描述作为额外的语义引导,进一步提高生成质量。孙菡博士介绍该方法在MVTec AD和VisA数据集上的广泛实验表明,Anomaly Anything 在生成高质量未见异常方面表现出色,并且能够有效提升下游异常检测任务的性能。
孙菡博士学术报告环节
第十位嘉宾南京理工大学王福运博士介绍了Distribution Prototype Diffusion Learning for Open-set Supervised Anomaly Detection方法。王福运博士指出在开放集监督异常检测中,现有方法通常通过生成伪异常样本来弥补观测到的异常样本的稀缺性,但往往忽视了正常样本的关键先验信息,导致区分边界不够有效。为了解决这一问题,王福运博士提出了通过构建多个可学习的高斯原型来创建一个潜在的表示空间,用于丰富和多样化的正常样本,并学习一个薛定谔桥,以促进正常样本向这些原型的扩散过渡,同时将异常样本推开。王福运博士首先介绍了在特征空间中操作,通过构建多个高斯原型来捕捉正常样本的复杂分布,并利用薛定谔桥将正常样本的分布映射到这些原型上,在超球面空间中设计,通过扩大中间特征的距离来增强特征的泛化能力,有助于识别分布外的异常,再利用多实例学习方法计算异常分数,通过结合多个模块的分数来提高检测性能。最后,王福运博士提到该方法在9个公共数据集上取得了最先进的性能。
王运福博士学术报告环节
第十一位嘉宾中国科学大学硕士研究生马雯芯介绍了AA-CLIP方法。马雯芯介绍AA-CLIP通过增强CLIP模型在文本和视觉空间中的异常判别能力,同时保留其强大的泛化能力,来提升零样本异常检测的性能。首先,AA-CLIP 通过冻结视觉编码器来适应文本编码器,为每个训练类别在文本空间中创建“锚点”,用于异常感知语义。这些锚点能够清晰地区分正常和异常语义,使得模型在文本空间中具备更好的异常判别能力。然后,AA-CLIP 将图像块级视觉特征与第一阶段创建的异常感知文本锚点对齐。这一过程引导 CLIP 的视觉编码器集中于与异常相关的区域,从而实现精确的异常定位。马雯芯介绍在训练集中仅使用每个类别的少量样本时,AA-CLIP 在跨数据集的零样本测试中达到了 SOTA 结果。
马雯芯硕士学术报告环节
第十二位嘉宾上海交通大学胡腾博士介绍了基于双流扩散模型的小样本异常图像生成。胡腾博士首先介绍在工业制造中,异常检测的性能受到异常数据稀缺性的限制。为了克服这一挑战,当前许多方法开始采用异常生成方法来扩充异常数据集。然而,现有的异常生成方法存在生成异常多样性有限以及生成的异常与原始图像融合不自然的问题。胡腾博士又介绍DualAnoDiff是一种基于扩散模型的少样本异常图像生成模型,能够同时生成整体图像及其对应的异常部分。该模型通过双重相关扩散模型生成多样且逼真的异常图像,其中一个分支用于生成整体图像,另一个分支生成异常部分。胡腾博士介绍该方法两个分支通过自注意力交互模块共享注意力信息,确保生成的整体异常图像与局部异常图像之间的一致性,为了保持背景的一致性,背景补偿模块通过在背景图像中添加噪声,并从中间特征层提取关键和值,然后应用自适应融合 MLP 将背景信息融入全局分支。这有助于模型更专注于图像中的对象,避免异常部分与背景之间的耦合,为了减少少样本图像生成中的失真和模糊现象,提取背景和形状信息,进一步优化生成效果。胡腾博士提到该方法在MVTec AD数据集上的实验表明,DualAnoDiff在下游异常检测任务中表现出色。胡腾博士学术报告环节
第十三位嘉宾思谋公司陈鹏光博士介绍了工业视觉检测任务的前沿技术和落地案例分享。陈鹏光博士提到在当前的工业缺陷检测中,速度和精度是至关重要的两个因素。为了同时解决速度和精度问题,研究人员和工程师们提出了多种前沿技术,包括长尾数据分布的处理、小样本解决方案、零样本解决方案以及生成式大模型解决方案,这些技术的结合为工业缺陷检测提供了更高效、更准确的解决方案。
陈鹏光博士学术报告环节
第十四位嘉宾精测集团陈洪专家介绍了AI在工业视觉中的应用。陈洪专家首先指出当前工业视觉检测的困境包括背景复杂、环境干扰大,缺陷微弱,未知检出难、泛化性要求高,高精度与实时性双重挤压。陈洪专家随后介绍了精测电子在工业质检领域的AI化进程,当前已实现边端应用和AI生态工具,未来将实现以自动化智能化为核心,极致提高AI交付效率。
陈洪专家学术报告环节
Copyright © 2025 中国图象图形学学会 京公网安备 11010802035643号 京ICP备12009057号-1
地址:北京市海淀区中关村东路95号 邮编:100190