欢迎光临中国图象图形学学会官方网站,让我们一起努力,探索图象图形领域的广袤天地!
首页 > 学会活动 > CSIG企业行

CSIG企业行—百度-3

2021-07-05

    2021年6月28日,由中国图象图形学学会主办,百度视觉技术部和中国图象图形学学会青年工作委员会共同承办的“CSIG企业行-走进百度暨计算机视觉前沿研讨会”成功举办。此次研讨会邀请到了多位学术界和企业界的专家学者,就计算机视觉的最前沿技术进行交流,分享实践经验,促进产业和学术研究的共赢发展。

1625468030338914.png

研讨会嘉宾合影

    研讨会由百度视觉技术部首席架构师刘经拓主持。开幕式上,百度集团副总裁吴甜、CSIG副理事长兼秘书长马惠敏教授、会议执行主席百度视觉技术部总监丁二锐、CSIG青工委主任白翔教授、CSIG企工委代表何召锋教授分别致辞。

    吴甜在致辞中分享到,百度自诞生之日就在使用人工智能技术。作为多模态技术不可或缺部分,视觉技术从移动互联网的拍照搜索,到与各行各业结合的产业应用,都取得长足的进步,同时又面临着更为复杂的需求挑战。通过此次交流活动,可以促进大家对前沿技术的探讨,加深产学研之间的相互交流,同时激发新思路。

图片1.png百度集团副总裁吴甜致辞

    马惠敏教授在致辞中指出中国图象图形学学会高度重视与企业的合作,专门成立了企业联络工作委员会,希望加强学会与企业多方面的合作和交流。学会已经推出了一系列的举措来加强对企业的支持,加强对“卡脖子”技术的联合攻关。此次活动的承办者之一是学会的青年工作委员会,青工委聚集了大量的优秀青年人才,是学会最为活跃的力量,非常高兴看到学会的青工委委员和百度的青年技术骨干在一起合作交流。希望学会和百度这样的知名企业能在多个方面合作共赢,共谋发展,为国家的科技发展做出更大的贡献。

1625468135828476.pngCSIG副理事长兼秘书长马惠敏教授致辞

    随后由黄高、白翔、胡瀚、张兆翔、周晓巍五位老师分别就自已研究领域的成果与大家进行了分享。百余位百度同学现场聆听了五位嘉宾精彩纷呈的演讲,线上直播观人气峰值达7000+。

    清华大学自动化系助理教授,博士生导师黄高作了主题为“动态深度神经网络”的报告。深度神经网络在诸多领域得到了成功应用,但深度模型所需的巨大计算成本限制了其可用性。较于当前主流的静态深度模型,动态网络能够针对输入的变化相应地调整自身的深度、宽度或者参数值等,实现计算量的“按需分配”,进而提升网络的效率,降低系统功耗。黄教授介绍了3种典型的动态网络方法:一是样本自适应网络-根据输入样本的复杂(难易)度自适应选择不同深度的网络进行推理,减少简单样本推理的计算量;二是空间自适应网络-根据输入图像不同像素的重要程度,在空间维度进行自适应采样然后利用稀疏卷积处理减少计算量;或者从图像中依次裁取显著区域进行预测,直到置信度超过指定阈值;三是时间自适应网络-对于视频动作识别任务,自适应从不同时间片段截取“显著”的图片块进行推理减少计算量。总的来说,动态网络方法能大幅降低计算复杂度,在工业界具有广泛的应用前景。

1625468163134192.png清华大学自动化系助理教授、博士生导师黄高作主题演讲


    来自华中科技大学人工智能与自动化学院教授,国家防伪工程技术研究中心副主任白翔分享了对场景文字理解的新思考。场景文字检测与识别技术已经取得了广泛的应用落地,是计算机视觉领域的重要研究课题。针对场景文字检测领域,白教授介绍了其团队在实时文字检测、弯曲文字检测及长行检测中的研究进展,分别讲解了基于分割、线检测及框检测的解决方案。而后白教授针对端到端文字识别问题,分别从整行识别与单字识别角度展开展开介绍了团队的两项研究工作。最后针对文字检索问题,提出了一套图像与文字信息同时建模的相似度学习方案,效果优于传统检测识别方案,且在工业界的文字检索问题上能有较好的发挥。

1625468188987101.png

华中科技大学人工智能与自动化学院教授、博士生导师白翔作主题演讲

    微软亚洲研究院视觉计算组研究员,西安交大兼职博导胡瀚介绍了一种新的视觉骨干网络Swin Transformer。该报告从物理学的大统一理论开篇,讲述近年来自然语言处理领域的递归神经网络(RNN)到自注意力机制(Self-Attention)的模型变迁,计算机视觉领域的卷积神经网络(CNN)的进化历程,到最终Transformer框架统一计算机视觉和自然语言两种模态处理的发展脉络。相比于谷歌主要为图像分类问题设计的ViT网络,报告提出的Swin Transformer架构对于各种视觉任务都广泛有效,包括图像分类、检测和分割等等,它也是目前COCO物体检测和ADE20K评测集上表现最好的骨干网络。最后,报告从计算机视觉领域使用Transformer的五大理由出发,介绍了其联合建模,卷积互补,自适应计算能力等特点,并展望了Transformer在工业届大数据大模型预训练情况下的建模能力。

1625468211867221.png微软亚洲研究院视觉计算组研究员胡瀚作主题演讲

    来自中国科学院自动化研究所研究员、博士生导师,中国科学院大学岗位教授,中国科学院脑科学与智能技术卓越创新中心骨干的张兆翔作了题为“GAIA:A Transfer Learning System of Object Detection that Fits Your Needs”的报告。张教授介绍了课题组最新的研究成果GAIA一站式视觉物体检测解决方案。伴随着深度学习的兴起,计算机视觉领域的诸多任务如物体检测、物体分割等取得长足进展。张教授首先回顾了物体检测领域的前沿研究进展,并从基于锚框的多阶段方法和单阶段方法以及无需锚框的关键点方法和中心域方法中间挑选了典型的研究工作进行介绍与分析。报告中,张教授还总结了物体检测领域从输入到基础网络到增强网络到预测网络以及损失函数和网络输出各个阶段的研究工作,充分展现了物体检测领域的研究全貌。尽管诸多工作已经取得了长足的进展,单一检测模型应用到特定领域和任务时还是存在迁移困难、数据少、定制性差等问题。张教授提出的GAIA一站式解决方案集合了超多数据、超大模型及超级算力,提供了一套任务无关的联合训练+下游任务定制+任务相关的领域自适应的高效AI定制化解决方案生产平台。该平台能够针对不同任务和边缘计算,自动提供定制化模型,针对上述问题提供了一个验证有效的解决思路。因此,GAIA方案具有较好的理论价值和应用前景。

1625468241632178.png中国科学院自动化研究所研究员、博士生导师张兆翔作主题演讲

    最后,浙江大学浙江大学计算机科学与技术学院研究员、博士生导师周晓巍作主题为“Democratizing Human Motion Capture”的报告。针对现有商用的人体运动捕捉(MoCap)系统价格昂贵、对使用环境与硬件设备要求高的限制问题,提出了运用AI技术让MoCap更轻量化与平民化的探索与尝试。本次报告主要介绍了基于多视图或单目视频的MoCap算法和系统,目标旨在仅使用RGB视频作为输入来重建3D人体运动,使得MoCap更加轻量化,造福更多的用户群体。

图片2.png浙江大学计算机科学与技术学院研究员、博士生导师周晓巍作主题演讲

    研讨会还设有多个互动问答环节,提供百度同学和嘉宾深入交流探讨的机会。此外,嘉宾们还参观了百度品牌展厅,并体验试乘了Apollo无人车。“CSIG企业行-走进百度暨计算机视觉前沿研讨会”在学会的各级领导、各位演讲嘉宾和百度的各级领导、视觉技术部的大力支持下,取得了圆满成功。此次活动促进了百度同学和学界学者的互相交流,双方碰撞出了精彩的思想火花。对计算机视觉领域的最前沿技术发展的深入探讨,对产业和学术研究的共赢发展有良好的促进作用。同时,双方在人才培养、学术共建、技术交流等方面达成诸多共识,推进了后续的深入合作。