CSIG武汉会员活动中心“东湖论坛”ICCV预讲会(第4期)于2025年8月25日成功举办,该活动由中国图象图形学学会(CSIG)主办,CSIG武汉会员活动中心,CSIG图像视频通信专业委员会、CSIG青年工作委员会承办,会议由武汉大学王增茂副教授和华中科技大学周瑜教授主持。本次会议报告讲包括来自南京大学、国防科技大学、武汉大学以及华中科技大学的周凯来、章湘粤、王奉祥、肖力文、戴喆玮、刘天奇、李长、余文文、向继俊、刘龙亮、吴东岳等11位硕博研究生,报告会在中国图象图形学学会视频号、B站、蔻享学术三个直播平台进行同步直播。本次在线学术报告会引起了广泛的关注,共计4700余位专家、学者、工程技术人员通过三个直播平台线上参与了报告会。
武汉大学副教授王增茂开场介绍环节
华中科技大学周瑜教授中间主持环节
王增茂副教授首先简单介绍了武汉会员活动中心的学术活动并主持了上半场会议。华中科技大学周瑜教授主持了下半场报告并进行了会议总结。
周凯来博士报告环节
南京大学周凯来同学针对当前case-by-case跨膜态融合研究范式存在人为归纳偏置、模态偏置以及数据瓶颈的问题,构建了多光谱基础模型M-SpecGene,探索了无需人工干预的跨膜态融合方式,从而提取不同模态的不变表征,构建了高质量大规模数据集RGBT550K,用于多光谱图像的自监督预训练,提出GMM-CMSS渐进式掩码策略,实现从信息密度高的区域到信息密度低的区域的渐进式采样。
章湘粤同学报告环节
武汉大学章湘粤同学指出良好的语音协同动作生成需要常见节奏性动作和罕见必要性动作的有效融合,因此,其提出了具有帧级语义整体性的语音驱动动作生成算法。具体地,探索了由粗到细的交叉注意力模块和节奏学习的一致性保持,以建立与节奏相关的动作基础,确保语音与节奏手势的连贯。同时,设计了语义强化学习模块以生成具有语义感知的稀疏动作。最后,通过语义分数的自适应合成实现高质量的语音动作。
王奉祥同学报告环节
国防科技大学王奉祥同学针对MAE架构中遥感视觉基础模型的训练速度慢的难题,结合遥感影像中地物分布特点,提出了一个包含1300W张图像的数据集,并在此基础上提出了更为高效的训练方式SelectiveMAE算法。具体的,针对遥感图像像素冗余的问题,在MAE算法中选择性的加速重建含有细粒度、信息度更高像素,仅仅使用了40%左右的像素,实现了2到3倍的训练速度增加。
肖力文同学汇报环节
华中科技大学肖力文同学针对未来轨迹发生碰撞以及未来轨迹超出可行驶区域的问题,通过优化预测轨迹的合理性,促进算法的准确性。对场景中所有轨迹的预测执行优化,通过编码轨迹间以及轨迹与车道间的交互以促进轨迹预测和合理性。
戴喆玮同学汇报环节
华中科技大学戴喆玮同学针对异常图像数据稀缺的问题,基于产品具有全局一致性,异常的形状和外观呈现随机变化的特点,依托U-Net的差异化学习能力,精确捕捉正常产品的细微变化与异常区域的丰富差异,提出了基于分离与共享微调的少样本工业异常图像生成方法。
刘天奇同学汇报环节
华中科技大学刘天奇同学针对当前的4D生成未能关注背景、目前的4D数据集规模有限的问题,针对具体方法中视角补充存在色彩以及内容缺失的问题,提出了时空约一致性的4D场景生成方案。相比于现有的算法,该算法可以直接处理4D对象及其背景,获得了更为优异的效果。
李长同学汇报环节
华中科技大学李长同学针对多模态大模型在对被分割物体的位置信息理解错误以及多模态大模型理解存在幻觉的问题,提出了一种局部辅助的多模态大模型分割算法,具体的通过融合语义编码器的语义知识和像素编码器的分割先验知识,提升了理解和分割性能,通过分割得到的局部物体重新送入LMM预测后续局部描述,有效的缓解了幻觉。
余文文同学汇报环节
华中科技大学余文文同学针对多模态大模型存在幻觉以及缺乏可解释性的问题,利用基于规则奖励的强化学习,动态激励模型生成带有推理线索的答案,以增强可解释性,提升推理透明度。具体的,基于RL的文档理解框架,不需要依靠固定的CoT模版,实现方法的可解释性,生成人类可理解的推理步骤,同时设计多目标奖励函数,激励模型生成思考过程,以及改述后的问题,ROI区域坐标和最终答案,让回答透明可解释。
向继俊同学汇报环节
华中科技大学向继俊同学针对现有的深度超分辨率方法忽略了实际设备上标定误差以及深度补全方法主要为雷达设计,并不适配dToF分布的问题,提出了面向实际dToF传感器的深度增强方法。具体的通过将低分辨率的稠密深度图投影为高分辨率的系数深度图,在深度补全下考虑该问题;以及针对整体或者局部噪声的问题,考虑增强模型对噪声的鲁棒性,从而实现了高精度的深度增强。
刘龙亮同学汇报环节
华中科技大学刘龙亮同学针对全景图像从球面到平面映射引入失真、现有光流估计算法难以直接应用在全景图以及缺少针对两极区域特殊处理的问题,利用正交视图的低失真先验对原始视图的光流估计进行补偿,减小两极区域失真的影响。具体的,提出的算法包括双分支交够、联合代价体查找、基于正交视图的失真补偿模块,在多个数据集的实验中展示了所提出算法的有效性。
吴东岳同学汇报环节
华中科技大学吴东岳同学指出期望的数据剪枝方法应该同时局部高效性、剪枝后数据样本保持多样性以及剪枝方法应该能够根据训练中模型不断变化的训练状态进行动态调整。针对现有的剪枝方法无法同时满足上述问题,提出了面向无损训练加速的数据剪枝范式。具体的,直接使用网络中间层特征计算样本重要性,剪枝后截断被剪枝样本后续的计算,提高了处理速度;优先选择当前batch中特征分布概率密度较低的样本,剪掉高概率密度样本,确保了样本的多样性;使用batch-wise剪枝,动态更新聚类中心,估计整体数据的分布特征,增强了实时性。
Copyright © 2025 中国图象图形学学会 京公网安备 11010802035643号 京ICP备12009057号-1
地址:北京市海淀区中关村东路95号 邮编:100190