个人简介
唐申庚,合肥工业大学讲师、硕士生导师,CSIG-MM专委会委员,CCF-MM专委会委员,安徽省人工智能学会计算机视觉专委会秘书长,CSIG高级会员,CCF/CAAI会员。研究方向包括手语翻译与生成、视频理解与分析、跨媒体智能推理等。近年来在CCF A类国际会议及IEEE/ACM Trans.等高水平期刊发表学术论文20余篇;参与撰写英文学术专著1项,申请中国发明专利16项(已授权8项),登记软件著作权6项;主持安徽省自然科学基金项目1项、中央高校基本业务经费专项项目2项,参与国家自然科学基金重点项目2项、面上项目2项;获合肥工业大学第一届蔡达成奖教金,CVPR 2025手语生成挑战赛亚军,IJCAI 2024面向隐藏情绪理解的微手势分析挑战赛亚军,WWW 2025基于文本的人员异常搜索挑战赛季军等。担任Medical Artificial Intelligence、Eurasia Journal of Science and Technology期刊编委,《南京理工大学学报》青年编委,AAAI 2023~2025程序委员会委员,多次担任CVPR、ICCV、ICLR、ACM MM、ACM CHI、ECCV、IEEE TPAMI、IEEE TMM、IEEE TCSVT、ACM TOMM等国际会议与期刊审稿人。
科研经历
长期围绕多媒体数据理解与生成的主题,针对连续手语翻译、视频编辑与生成、文本音视频交互等任务展开研究。取得的主要研究成果如下:
(1)连续手语翻译研究:针对手语翻译中的弱监督和时序表征问题,提出了一种基于在线联合优化的联结主义时序建模方法,通过伪3D卷积特征学习和动态解码方案,显著提升了手语翻译中时序映射的精度;针对多源手语视频中的模态时序探索与跨模态关联问题,设计了基于图神经网络的多模态序列嵌入方法,通过图卷积网络融合时间与通道特征,优化时序信息的保留与多模态关联。相关成果已申请专利2项,论文发表于IJCAI会议及IEEE TMM期刊。
(2)视频编辑与生成研究:针对文本驱动的人体姿态生成中的跨模态语义不平衡问题,提出了带在线反向翻译的文本语义增强网络,通过文本编码器捕捉全局上下文依赖,并结合反向翻译器确保生成姿态的语义一致性;针对传统3D坐标建模中离散异常点问题,提出了象似性解纠缠网络来建模人体骨骼结构,从而优化了姿态视频生成的准确性和自然性。相关成果发表于CVPR、AAAI、IJCAI、ACM MM等会议及ACM TOMM期刊。
(3)文本音视频交互研究:针对现有视频-文本跨模态推理中复杂语义难以学习的问题,提出了基于视觉情感解释树的跨模态推理方法,以递进式的形式逐步实现文本-视觉内容的深度融合;针对音视频对象的跨媒体跟踪和时序对齐问题,提出了块级音频对象跟踪方法,通过测量相邻视频帧之间的块级运动强度图来构建和引导一个运动驱动的图网络,最终用于音视频场景下的智能问答。相关成果发表于AAAI、ACM MM等会议及IEEE TIP期刊。
在此基础上,进一步深入探索多媒体数据理解与生成技术在自动驾驶、具身感知、无障碍人机交互等领域的应用,推动理论成果的技术转化落地。
成长经历
2017年本科毕业于湖南师范大学计算机科学与技术专业;2017年至2022年期间,在合肥工业大学计算机应用技术专业硕博连读,师从洪日昌教授,2022年12月获得工学博士学位。2023年2月起在合肥工业大学计算机与信息学院任讲师。自2017年起开始参与中国图象图形学学会举办的各种学术活动,如中国图象图形大会、中国多媒体大会、青年科学家会议等。学会的各类学术活动提供了前沿学术与科技交流的宝贵平台,帮助青年学者开阔了学术视野,结识了来自不同单位和领域的同行和伙伴。未来将继续参与学会的各项活动,并且积极为学会活动的组织和学会发展贡献绵薄之力。
Copyright © 2025 中国图象图形学学会 京公网安备 11010802035643号 京ICP备12009057号-1
地址:北京市海淀区中关村东路95号 邮编:100190