秋高气爽,时逢寒露,初候鸿雁来宾。雁栖湖校区虽送走了南归雁,但有幸迎来了王井东老师来为我们做《计算机视觉中的深度学习前沿研究》讲座。
王井东老师目前是百度人工智能体系计算机视觉首席架构师,曾任微软亚洲研究院视觉计算组首席研究员,研究领域为计算机视觉、深度学习及多媒体。老师担任或曾担任过许多计算机视觉和人工智能会议的领域主席,如 CVPR、ICCV、ECCV、AAAI、IJCAI、ACM MM等。老师目前是IEEE TPAMI,IJCV,以及IEEE TCSVT的编委会成员,曾是IEEE TMM编委会成员,也是国际计算机协会杰出会员和国际模式识别学会会士(IAPR Fellow)。
目前王老师研究的问题包括神经网络结构的设计、行人姿势估计、图像分割、目标检测以及多媒体搜索等。老师在计算机视觉、机器学习以及多媒体领域里发表了论文 100 余篇,个人专著一本,代表工作包括高分辨率神经网络(HRNet)、基于有监督的区域特征融合(DRFI)的显著目标检测、基于近邻图的大规模最近邻搜索(NGS,SPTAG)、合成量化(CQ)等,论文曾获ACM MM 2015最佳论文提名,研究成果多次转化到微软的关键产品和服务中。
王井东老师做报告
王老师先带我们回顾了早期计算机视觉领域中代表性的主干网络,依次介绍近些年自己的工作,并分享自己的心得与体会。首先,意识到之前大多数网络是为服务于图像分类任务而设计的,便希望寻找一个适用于一般计算机视觉任务的新架构,于是便提出了面向视觉识别的通用网络架构HRNet (CVPR 2019),该模型得到了广泛的应用;其次,老师为我们介绍了Transformer的工作,并进一步讲述他们将Transformer用于图像语义分割、目标检测、以及高分辨率主干网络的三个工作:OCRNet (ECCV 2020),Conditional DETR (ICCV 2021),以及HRFormer (NeurIPS 2021)。在讲座的最后,老师也谈及对于局部注意力机制和动态depth-wise卷积之间关系的理解,以及自己对于未来Transformer在计算机视觉领域中应用的看法。
同学们认真听讲
王井东老师是计算机视觉领域富有影响力的研究者,同学们难得遇到老师来雁栖湖畔做报告的良机,纷纷慕名而来。老师不仅细致了介绍了科研工作中具体的技术细节,还分享了一些科研工作开展中可能用到的经验。例如,不要形成思维定式;好文章要反复多读,每次读便会有新的收获。最后,伴随着热烈的掌声,王老师结束了他在雁栖湖精彩的报告。