2006年以来,深度学习开启了视觉领域的表征学习新纪元,推动了“深度学习+”的众多视觉应用。随着建模人类认知和学习方法的不断进步,2020年以来,视觉领域深度学习技术出现了众多新的热点,包括视觉Transformer(ViT),用于图数据的GCN;侧重模态间语义一致性约束的多模态预训练、图文匹配,以及大规模图像/视频数据的视觉特征学习;三维场景、信息检索等现实应用中的深度学习新方法。第23期CSIG 图像图形学科前沿讲习班(Advanced Lectures on Image and Graphics,简称IGAL)于2023年5月27日-28日在北京举办,本期讲习班主题为“2020s深度学习技术”,由北京工业大学贾熹滨教授和马伟副教授担任学术主任,邀请深度学习技术与应用领域知名专家和杰出研究者作报告,讲解深度学习新技术及其所带来的视觉领域理论发展和应用,探讨未来深度学习技术研发和应用研究思路,使学员在了解学科热点、提高学术水平的同时,增近与计算机视觉认知计算与应用领域科研顶尖学者和企业创新人才之间的学术交流。
中国图象图形学学会
北京工业大学信息学部、北京人工智能研究院、中国图象图形学学会机器视觉专业委员会
个人简介:贾熹滨,北京工业大学信息学部计算机科学与技术系、北京人工智能研究院,教授,博导。中国计算机学会(CCF)计算机视觉专委会、中国图象图形学学会(CSIG)机器视觉专委会、视觉大数据专委会、中国人工智能学会(CAAI)智慧医疗专委会委员、目前主要从事研究领域包括智能影像、情感计算以及行为分析,重点研究深度表示学习、迁移学习、小样本学习、图神经网络等人工智能应用技术。主持参与了国家重点研发计划、国基金面上和市基金面上等多项国家和省部级项目,以第一作者在包括IEEE/ACM TCBB、PR letters、计算机研究与发展等国内外重要期刊发表论文40余篇、申请及获批专利10余项。目前担任KSII TIIS副主编和编委,曾合作主办国际会议APIC-IST 2019,担任会议组委会主席,曾任ICONI2019会议组委会主席、分会场主席。
个人简介:马伟,北京工业大学信息学部计算机科学与技术系、北京人工智能研究院,副教授,博导。北京工业大学信息学部计算机科学与技术系副主任,北京人工智能学会理事,中国计算机学会(CCF)计算机视觉专委会、中国图象图形学学会(CSIG)机器视觉专委会委员。研究兴趣包括:图像语义内容分析、基于图像的场景几何与语义重建、文化遗产数字化展示与保护等。在Information Fusion、IEEE TIP、IEEE TRO、IEEE TCSVT等领域内高影响力期刊与学术会议上发表学术论文70余篇,授权发明专利10余项,曾获北京市科技奖三等奖,国际评论数据库Computing Reviews评选的“值得关注论文”奖。
时间:2023年5月27日-28日,
地点:北京工业大学理科楼学术报告厅 M844
日程安排
5月27日上午(主持人:贾熹滨) | ||
08:00—09:00 | 签到 | |
09:00—09:05 | 北京工业大学信息学部:杨震副主任 | 欢迎致辞 |
09:05—09:10 | 北京人工智能研究院:尹宝才院长 | 开班致辞 |
09:10—10:30 | 彭宇新 | 细粒度多模态协同感知、认知与生成 |
10:40—12:00 | 李 玺 | 视觉结构建模和特征学习 |
5月27日下午(主持人:毋立芳) | ||
14:00—15:20 | 卢志武 | 多模态预训练模型 |
15:30—17:00 | 王 啸 | 图神经网络方法与应用 |
5月28日上午(主持人:冀俊忠) | ||
08:00—09:20 | 胡永利 | 从多源/多视数据表征到跨媒体智能 |
09:20—10:40 | 查红彬 | 动态视觉与SLAM:在线学习的途径 |
10:50—12:10 | 常建龙 | 视觉微调概述和前沿探索 |
5月28日下午(主持人:马伟) | ||
14:00—15:20 | 王春雨 | 二维和三维人体姿态估计:表达及模型 |
15:30—17:00 | 黄 岩 | 图文匹配研究现状 |
17:00—17:20 | 结营仪式 |
个人简介:彭宇新,北京大学二级教授、博雅特聘教授、国家杰出青年科学基金获得者、国家万人计划科技创新领军人才、科技部中青年科技创新领军人才、863项目首席专家、中国人工智能产业创新联盟专家委员会主任、中国工程院“人工智能2.0”规划专家委员会专家、北京图象图形学学会副理事长、中国图象图形学学会会士、副秘书长、提名与奖励委员会副主任。主要研究方向为跨媒体分析、计算机视觉、机器学习、人工智能。以第一完成人获2016年北京市科学技术奖一等奖和2020年中国电子学会科技进步一等奖,2008年获北京大学宝钢奖教金优秀奖,2017年获北京大学教学优秀奖。主持了863、国家自然科学基金重点等30多个项目,发表论文180多篇,包括ACM/IEEE Trans和CCF A类论文80多篇。多次参加由美国国家标准技术局NIST举办的国际评测TRECVID视频样例搜索比赛,均获第一名。主持研发的跨媒体互联网内容分析与识别系统已经应用于公安部、工信部、国家广播电视总局等单位。担任IEEE TMM、TCSVT等期刊编委。
报告题目:细粒度多模态协同感知、认知与生成
报告摘要:随着多媒体和互联网技术的迅猛发展,图像、视频、文本、音频等多模态大数据快速增长,同时呈现出细粒度的特点,例如鸟类、车类、飞机类下面具体的子类别,将鸟分为阿卡迪亚霸鹟、大冠蝇霸鹟等;将车分为奥迪A4、A6、A8等;将飞机分为波音737、747、777等。细粒度多模态协同感知、认知与生成对于刻画真实世界和人类生产生活方式具有重要意义。研究目标是借鉴人脑的跨模态特性,通过挖掘并协同多源、互补、关联的细粒度和多模态信息,实现对真实世界概念、规则及其演化的深层感知、认知与综合归纳,使得计算机从能看会认的“感知智能”迈向能理解会思考的“认知智能”。根据计算机对细粒度多模态信息的理解模式,本报告将从细粒度辨识增强、多模态关联、多模态协同、跨模态生成四个方面介绍我们在细粒度图像分类、行人再识别、细粒度视频检索、细粒度跨模态检索、跨模态推理、文本到视觉生成上的最新研究进展,并进行相关系统展示。
个人简介:李玺,浙江大学计算机科学与技术学院,教授,博导,浙江大学上海高等研究院副院长。IET Fellow,IEEE Senior Member,国家杰出青年科学基金获得者,国家青年特聘专家,科技部科技创新2030新一代人工智能重大项目负责人;国家自然科学基金委联合基金重点项目负责人,教育部重点规划研究项目负责人,第七届中国图象图形学学会理事,浙江省杰出青年科学基金获得者,浙江省特聘专家,杭州钱江特聘专家。 在国际权威期刊和国际顶级学术会议发表或录用文章180余篇,拥有多篇ESI高被引论文。担任CVPR、ICCV、ECCV、ACM Multimedia等国际顶级会议的Area Chair,担任IEEE TNNLS、IEEE TCSVT、IEEE TMM和IEEE TCDS的Associate Editor;中国图形图像学报青年编委。获得2021年世界人工智能大会SAIL奖,两项最佳国际会议论文奖(ACCV 2010和DICTA 2012),一项最佳学生论文奖(ACML 2017),2019年和2020年中国图象图形学报最佳封面文章和年度优秀论文,ICIP 2015 Top 10%论文奖。另外,获得2021年中国图象图形学学会自然科学奖二等奖,2021年中国电子学会科技进步一等奖,2021年中国产学研合作促进会产学研合作创新与促进奖,两项北京市自然科学技术奖(包括一等奖和二等奖),以及一项中国专利优秀奖。
报告题目:视觉结构建模和特征学习
报告摘要:互联网和物联网时代催生了海量视频大数据,从这些海量视频数据中有效提取知识迫切需要各种人工智能的技术和手段。因此,如何进行人工智能驱动的视觉计算已经成为当今知识经济时代亟待解决的核心技术问题。本报告主要围绕数据驱动的人工智能学习方法,进行大规模图像/视频数据的视觉特征学习,从目标视觉感知特性、视觉特征表达、深度学习器构建机制、高层语义理解等多维度视角进行了深入剖析,并引入了大规模视觉特征学习所涉及的主要研究问题和技术方法。然后系统地回顾了视觉特征表达和学习领域的不同发展阶段,介绍了近年来我们利用视觉特征学习进行视觉语义分析和理解所做的一系列代表性的研究工作及其实际应用。报告的最后将和大家一起探讨一下涉及视觉特征学习所面临的一些开放性问题和难题。
个人简介:卢志武博士,中国人民大学高瓴人工智能学院教授,博士生导师。2005年毕业于北京大学数学科学学院信息科学系,获理学硕士学位;2011年毕业于香港城市大学计算机系,获PhD学位。主要研究方向为机器学习、计算机视觉等。设计首个公开的中文通用图文预训练模型文澜BriVL,并发表于Nature Communications。以主要作者身份发表学术论文90余篇,其中在Nat Commun、TPAMI、IJCV等国际期刊和ICML、ICLR、NeurIPS、CVPR、ICCV等国际会议上发表论文50余篇。指导的学生获得2021年CCF优博、2021年百度奖学金。
报告题目:大规模多模态预训练的最新研究进展
报告摘要:大规模多模态预训练在经过爆发式发展后,目前处于“啃硬骨头”的阶段,更多关注落地应用、可解释性、交叉研究等。我们在2021年设计并训练了大规模中文通用图文预训练模型文澜BriVL,在跨模态检索、视频剪辑、图文生成等任务上均取得出色表现。2022年以来,我们重点研究多模态预训练模型的可解释性、连续训练、搜索垂域落地等关键问题。本报告将详细介绍我们在大规模多模态预训练上取得的最新研究进展,并对未来发展趋势做必要的展望。
个人简介:王啸,北京航空航天大学副教授,鹏城实验室兼聘助理研究员。研究方向为图神经网络、数据挖掘与机器学习。共发表论文90余篇,其中CCF A类论文50余篇,ESI高被引论文2篇,6篇入选最有影响力论文榜单,3篇论文(提名)获得CCF A/B类等国际会议论文奖,成果多次被写入图学习标准库PyG和DGL。出版教材一部,专著三部,著作章节一章。担任WWW/AAAI/IJCAI的高级程序委员会委员。主持多项国家自然科学基金和CCF-腾讯犀牛鸟科研基金。获得教育部自然科学一等奖,中国电子学会科技进步一等奖,中国人工智能学会吴文俊优秀青年奖,ACM 中国新星提名奖,入选斯坦福大学发布的全球Top 2%顶尖科学家榜单,AMiner评选的AI2000最具影响力学者,北京智源研究院青源会会员,CCF高级会员,CCFAI专委会执行委员。
报告题目:图神经网络的“共性”与“个性”
报告摘要:图神经网络已成为当前深度学习领域的新浪潮,是目前学术界与工业界处理图数据的重要手段之一。虽然百花齐放的图神经网络在诸多领域都取得了理论或实践上的验证,然而深究其背后的机理,我们依然会存在诸多疑问:图神经网络的众多架构设计,是否遵循着某些基本原则,具有其内在统一性?这些基础原则如若发现,又能为理解和设计图神经网络带来怎样的启发?图神经网络相比于其他网络是否又具备某些个性特点?本次报告围绕以上问题对两类典型的图神经网络(半监督学习的图卷积网络和自监督学习的图对比网络)展开了初步思考,梳理不同架构或操作之间的联系,为我们审视与改进现有图神经网络带来新的视角。
个人简介:胡永利,北京工业大学教授、博士生导师,北京人工智能研究院交互智能研究中心主任。2017年入选北京市百千万人才工程,2018 年获北京市高层次创新人才支持计划领军人才。长期从事模式识别、图像处理、计算机视觉、人机交互、大数据挖掘、跨媒体智能和智能交通等方面的研究工作。作为项目负责人主持国家自然科学基金联合基金重点/面上项目、北京市科技计划项目、北京市自然科学基金重点/面上项目等10余项科研项目。共发表学术论文150余篇,包括ESI高被引论文2篇,IEEE/ACM汇刊和CCF A类会议论文40余篇。获国家发明专利20余项。相关成果在北京、青岛等城市智能交通系统得到应用,取得显著经济和社会效益,并获2020年吴文俊人工智能科技进步奖一等奖,2022年山东省科技进步二等奖,2020年青岛市科技进步二等奖。
报告题目:从多源/多视数据表征到跨媒体智能
报告摘要:多源异构数据的表征一直是大数据领域的热点研究课题,尤其是自媒体时代,以用户为中心的内容生产模式产生了海量多源/多视跨时空异构媒体大数据,其中既包含物理感知设备获取的传统标量和时序数据,又包含文本、音频、图像、视频等非结构化多模态数据,从而带来了数据表征、融合、分析和理解等方面的挑战。本报告在回顾现有多源异构数据融合分析研究工作的基础上,介绍团队在图像视频等高维数据的非线性表征、多源/多视数据的乘积流形融合表示、跨时空数据关联建模等多源/多视数据表征方面的研究进展,并结合当前人工智能跨媒体智能领域的进展,介绍近年来在图文检索、视觉问答和多模态文档分类等方面的研究成果。同时,讨论分析相关研究的问题和挑战,并展望了未来的研究方向。
个人简介:查红彬,北京大学智能学院教授,机器感知与智能教育部重点实验室主任。主要从事计算机视觉与智能人机交互的研究,在三维视觉几何计算、三维重建与环境几何建模、传感器即时定位与地图构建等方面取得了一系列成果。出版学术期刊及国际会议论文350多篇,其中包括IEEE T- PAMI,IJCV, IEEE T-VCG, IEEE T-RA等国际期刊以及ICCV, ECCV, CVPR等国际学术会议论文140多篇。
报告题目:动态视觉与SLAM:在线学习的途径
报告摘要:三维视觉的一个主要任务是利用传感器视点的变化与成像几何的约束来实现三维场景的几何与结构重建。因此,伴随传感器移动的动态视觉与3D视觉的关系愈加密切,SLAM(Simultaneous Localization and Mapping:即时定位与地图构建)技术再度成为3D视觉领域的研究热点。为了提高动态视觉系统在真实复杂场景中的应用能力,我们应充分强化视觉系统的环境自适应性,而在线学习方法是实现这一目标的有效途径。该报告将围绕基于在线学习的SLAM问题,介绍我们近来的一些想法和尝试,主要内容包括:面向自监督视觉里程计的序列对抗学习方法;具有在线自适应能力的自监督SLAM学习。
个人简介:常建龙,华为云研究员,百度奖学金、中国人工智能协会吴文俊优秀博士论文奖、中科院优秀博士论文奖、中科院院长奖等获得者。主要研究通用AI算法和商业落地,多项研究成果发表于IEEE T-PAMI、IEEE T-IP、ACM Computing Surveys、NeurIPS、CVPR、ICCV、AAAI等国际顶级AI期刊会议,并成功应用于华为云为千行百业赋能。
报告题目:视觉微调概述和前沿探索
报告摘要:本次报告总结了当前视觉大模型的微调技术,包括提示调优、适配器调优、参数调优和重映射调优。通过仅仅更新少量模型参数实现了比全量微调更优越的性能,发现这些方法在各种下游任务上展现出了惊人的潜力。最后,本报告对视觉大模型的预训练、微调范式、人机交互、优化等未来发展方向做出了详细的分析和讨论。
个人简介:王春雨,微软亚洲研究院主管研究员,研究兴趣包括人体姿态估计、目标跟踪、行为识别等,在CVPR, ICCV等顶级会议和期刊发表文章30余篇,其中FairMOT入选高被引文章。担任ICPR22, CVPR23会议领域主席,计算机视觉主要会议和期刊的审稿人。其研究成果应用于微软多个产品中,包括PowerPoint, Microsoft Dynamics, Xiaoice等。
报告题目:二维和三维人体姿态估计:表达及模型
报告摘要:人体姿态估计是计算机视觉中的一个热点研究问题,对体育、健康、机器人、混合现实等多个领域具有重要意义。近几年,在表达、模型和数据规模等方面的研究和进展有效提升了在公开数据集上的估计精度,然而遮挡等问题带来的挑战仍然没有完全解决。本报告在回顾现有人体姿态估计算法的基础上,介绍我和合作者在人体姿态表达、模型设计等方面的最新进展,这些方法在处理严重遮挡时取得新的突破。
个人简介:黄岩,中科院自动化所副研究员,2017年博士毕业于中科院自动化所。研究方向为视觉-语言理解和视频分析,在相关领域的国内外期刊和会议上发表论文共计100余篇,曾获国内外学术会议最佳论文奖3项、国内外主流竞赛冠亚军5项,并担任CVPR和ICCV上3次多模态主题研讨会的共同组织主席。曾获得中国科学院院长特别奖、中国人工智能学会优秀博士论文奖、百度奖学金、NVIDIA创新研究奖。入选中国科协青年人才托举工程、北京市科技新星计划和微软铸星计划。
报告题目:图文匹配研究进展
报告摘要:图文匹配(Image-Text Matching)是视觉-语言理解领域的基础任务之一,与传统跨模态检索的主要区别之一在于其弱监督的数据标注。近年来,大量研究人员围绕此任务进行了深入研究,特别是在视觉-语言预训练模型出现之后,该任务的精度被迅速提升到高位,甚至开始接近饱和。本报告首先梳理该任务的相关代表性方法,然后总结目前的主要技术难题,并探讨相应的解决思路和未来研究方向。
1. 本期讲习班限报100人,根据缴费先后顺序录取,报满为止。
2. 2023年5月26日(含)前注册并缴费:CSIG会员2000元/人,非会员2500元/人(赠送1年CSIG会员);现场缴费:会员、非会员均为3000元/人;CSIG团体会员参加,按CSIG会员标准缴费;同一单位组团(5人及以上)报名,均按CSIG会员标准缴费。
3. 注册费包括讲课资料和2天会议期间午餐,其它食宿、交通自理。
4. 即日起至2023年5月26日,请登录会议注册网站注册。
5. 会议注册网址:https://conf.csig.org.cn/10345.html
联系方式
联 系 人:黄老师
联系电话:010-82544754
邮 箱:igal@csig.org.cn
中国图象图形学学会
2023年4月6日
Copyright © 2025 中国图象图形学学会 京公网安备 11010802035643号 京ICP备12009057号-1
地址:北京市海淀区中关村东路95号 邮编:100190