优秀博士与青年学者论坛 – NCIG 2020 第二十届全国图象图形学学术会议

王兴刚

王兴刚华中科技大学

报告题目：面向高效率物体识别的神经网络设计和搜索

报告摘要：在图像视频中进行高效率物体识别（分类、检测、分割等）技术是众多人工智能应用中的关键模块。本报告将从神经网络的高效率注意力机制和神经网络架构搜索（NAS）两个方面介绍如下工作：（1）基于稀疏图神经网络的高效全图上下文建模技术，介绍Criss-Cross Network（CCNet）与自注意力网络的关系及其在语义分割问题上的优异性能；（2）基于稠密连接搜索空间（DenseNAS）的网络宽度搜索和多阶段计算量分布优化，介绍NAS技术如何继续提升MobileNetV2和ResNets等经典人工设计的网络；（3）快速神经网络自适应技术，介绍如何实现网络架构的迁移学习，用极低的计算开销实现物体检测和语义分割网络架构搜索。

个人简介：王兴刚，华中科技大学，电子信息与通信学院，副教授。主要研究方向为样本和计算高效的物体识别技术。发表论文80余篇，其中包括（顶级期刊和会议IEEE TPAMI，IEEE TNNLS, IEEE TIP, CVPR, ICCV, ECCV, NIPS, ICML, AAAI）40余篇。谷歌学术引用次数超过3800次。担任Image and Vision Computing (IMAVIS)期刊副编辑，IEEE TPAMI, JMLR, IEEE TIP, PR, ICCV, CVPR, ECCV, NeurIPS, ICML, AAAI等期刊会议审稿人。担任中国图象图形学学会图象视频通信专业委员会秘书长，VALSE第二届资深AC委员会成员。获“微软学者”奖（全亚洲10名获奖者）、湖北省自然科学二等奖、Pattern Recognition等杂志优秀审稿人奖、CCF-腾讯犀牛鸟基金优秀奖等、ECCV’18&ICCV’19大规模视频物体分割竞赛第二名，入选中国科协“青年托举人才工程”。更多信息请参考个人主页：https://xinggangw.info。

王雁刚

王雁刚东南大学

报告题目：人体动态三维重建研究

报告摘要：人体动态三维重建是计算机视觉、计算机图形学、虚拟现实领域中的一个非常重要的问题。高质量的人体三维重建对新一代信息技术产业的发展至关重要，可能会催生新的产业形态，如运动重定向、第一人称动画等。当前，精确的人体三维重建仍需要依赖较为复杂的硬件设备（如：多视角相机，IMU传感器等），是国际上本领域的前沿研究热点。近年来，随着深度学习的发展，从单张彩色图像中恢复人体的形状与姿态取得了飞速发展。本报告将系统介绍几种人体动态三维重建的系统与方法，细致探讨带物体遮挡的人体动态三维重建问题，并提出一种有效的解决方案。

个人简介：王雁刚，男，博士，东南大学副教授。研究方向为计算机图形学、计算机视觉、虚拟现实、动态三维重建。2014年7月博士毕业于清华大学，同年加入微软亚洲研究院，担任副研究员。2017年10月加入东南大学自动化学院，担任副教授。目前，主要着眼于手势动态三维重建、人体动态三维重建难题。已发表本领域国际顶级期刊与会议论文25篇，并曾多次担任SIGGRAPH，CVPR，ICCV，TVCG等顶级会议及期刊审稿人。申请并授权国家发明专利25项。2019年提出的OneHand10K手势数据集已被全球超过50家知名研究单位和学者采用。入选2018年度江苏省“双创博士”人才计划；2019年度东南大学至善学者A层次人才；第五届中国科协青年人才托举工程。曾获东南大学第26届青年教师授课竞赛二等奖（全校194人参赛，仅9人获二等奖）。

刘鑫辰

刘鑫辰京东人工智能研究院

报告题目：大规模城市监控中的车辆搜索

报告摘要：车辆是城市视频监控系统中重要的目标。近年来，监控视频中车辆相关的研究逐渐成为热点，如车辆检测、车辆跟踪、车辆分类、车牌识别等。车辆搜索，即给定一个查询车辆，在城市视频监控网络中搜索与其身份相同的车辆，可以帮助管理人员快速准确地在城市中寻找、定位、跟踪目标车辆。然而，车辆搜索面临“搜不准”和“搜得慢”两大挑战。因此，我们针对城市视频监控网络提出了一种融合多模态数据的渐进式车辆搜索框架，并从车辆外观特征的表示与学习、车辆唯一标识即车牌的有效利用、监控网络中时空关系的挖掘三个方面提出了一系列方法与模型。最后，我们构建了一个融合多模态数据的渐进式车辆搜索原型系统，并在真实视频监控数据上验证了上述框架与方法的有效性。

个人简介：刘鑫辰博士于2018年在北京邮电大学获得博士学位，现在在京东人工智能研究院视觉与多媒体实验室担任资深研究员。研究方向集中在车辆和行人再识别、车辆和人体解析、商品识别等，在重要期刊和国际会议上发表论文十余篇，如IEEE TMM、CVPR、ACM MM、ECCV等。曾获IEEE Trans. on Multimedia 2018 Multimedia Prize Paper Award，IEEE ICME 2016 Best Student Paper Award。2019年获中国图象图形学会优秀博士论文奖。

马超上海交通大学

报告题目：防深度攻击的鲁棒性目标跟踪算法

报告摘要：While deep convolutional neural networks (CNNs) are vulnerable to adversarial attacks, considerably few efforts have been paid to construct robust deep tracking algorithms against adversarial attacks. Current studies on adversarial attack and defense mainly rest in single images. In this work, we attempt to generate adversarial examples on top of video sequences to improve the tracking robustness against adversarial attacks. To this end, we take temporal motion into consideration when generating lightweight perturbations over the estimated tracking results frame-by-frame. On one hand, we add the temporal perturbations into the original video sequences as adversarial examples to greatly degrade the tracking performance. On the other hand, we sequentially estimate the perturbations from input sequences and learn to eliminate their effect for performance restoration. We apply the proposed adversarial attack and defense approaches to state-of-the-art deep tracking algorithms. Extensive evaluations on the benchmark datasets demonstrate that the proposed defense method not only eliminates the large performance drops caused by adversarial attacks, but also achieves additional performance gains when deep trackers are not under adversarial attacks.

个人简介：马超博士，上海交通大学人工智能研究院、教育部人工智能重点实验室助理教授。上海交通大学与加州大学默塞德分校联合培养博士。2016至2018年澳大利亚机器人视觉研究中心（阿德莱德大学）博士后研究员。主要研究方向计算机视觉与机器学习。研究工作多次发表在计算机视觉领域顶级期刊 (TPAMI/IJCV) 和会议 (ICCV/CVPR/ECCV/NIPS) 上。担任国际期刊Pattern Recognition客座编辑，担任TPAMI/IJCV/TIP等二十余份国际期刊审稿人，多次任ICCV/CVPR/ECCV/IJCAI等国际会议的程序委员和审稿人，任IJCAI 2019计算机视觉Session Chair。获2018年中国图象与图形学会优秀博士论文奖。入选2019年上海市浦江人才计划。CVPR 2018、CVPR 2019优秀审稿人。谷歌学术目前引用3600余次。

丛润民

丛润民北京交通大学

报告题目：当视觉显著性检测遇上多源数据类型：理论、模型与方法

报告摘要：受人类视觉注意力机制启发，视觉显著性检测任务旨在从给定的输入数据中提取最引人注意的区域或目标，已经被广泛应用于目标跟踪、内容编辑、压缩编码、质量评价等研究领域，以及智能拍照、智慧医疗、自动驾驶、对地监测等工程领域。当今大数据时代不仅带来了数据“量”上的飞跃，还促使数据在“质”上发生了突破。随着各类成像设备与硬件技术的发展，不同类型、不同模态、不同空间、不同维度的数据不断涌现，为人们更好地认知客观世界提供了丰富的数据资源，但同时也带来了新的问题和挑战。本此报告将以显著性目标检测为基本任务，围绕多源数据类型，重点介绍在RGB-D图像显著性检测、视频显著性检测、遥感显著性检测方面的工作。

个人简介：丛润民，北京交通大学数字媒体信息处理研究中心 (科技部重点领域创新团队) 副教授。2019年6月毕业于天津大学信息与通信工程专业，获工学博士学位。先后在新加坡南洋理工大学、香港城市大学从事研究工作。主要研究方向包括计算机视觉、多媒体信息处理、视觉显著性检测与分割、遥感影像解译、水下环境感知、深度学习等。主持、参与了包括国家自然科学基金、国家重点研发计划在内的多项科研项目。在IEEE TIP、TCyb、TMM、TCSVT、TGRS、CVPR、AAAI、IJCAI 等国际学术期刊及会议上发表论文30余篇，其中CCF-A/IEEE Trans 论文16篇；授权国家发明专利9项。荣获IEEE ICME 最佳学生论文奖亚军、天津市科学技术进步一等奖、中国图象图形学学会优秀博士学位论文奖、第十五届北京青年优秀科技论文奖等。目前担任SCI期刊Signal, Image and Video Processing 副主编，Signal Processing : Image Communication、Multimedia Tools and Applications 等SCI期刊客座编辑，以及TIP、TII、TMM、TCSVT、TGRS、NeurIPS、IJCAI、ACM MM等国际期刊和会议的审稿人。

周文罡

周文罡中国科学技术大学

报告题目：面向视频手语识别的增广学习方法

报告摘要：手语是听障人群与他人沟通交流的重要途径。由于听人一般缺乏系统性的手语学习，为了方便听人与聋人之间的沟通交流，视频手语识别技术应运而生，其旨在将手语视频转换为文本或语音，从而便于双方理解。视频手语识别是一个典型的跨学科问题，涉及计算机视觉、自然语言处理、多媒体分析等多个领域。近年来，视频手语识别技术取得了重大进展。由于视频手语数据录制和标注成本较高，现有的视频手语数据集规模有限，限制了基于深度学习的手语识别模型优化。针对该问题，本报告从增广学习的角度，首先介绍利用不同语言手语视频数据的多语言增广学习方法，然后介绍跨模态序列数据增广学习方法，最后介绍利用大规模自然语言语料的增广学习方法。最后，本报告将总结现有工作并对未来研究进行展望。

个人简介：周文罡，中国科学技术大学信息学院，教授、博士生导师，国家“优秀青年基金”获得者。2011年博士毕业于中国科学技术大学，2011~2013年在美国德州大学圣安东尼奥分校做博士后研究，2013年9月回中国科大任教。研究方向包括多媒体内容分析与检索、计算机视觉。发表学术论文140余篇，其中IEEE/ACM Trans.论文和CCF推荐A类会议论文共60余篇，谷歌学术总被引3980余次。入选中国科协“青年人才托举工程计划”和中科院青促会，曾获中科院百篇优秀博士学位论文奖、国际会议ICIMCS最佳论文奖（第一作者）。