人工智能学院举办“跨媒体智能：检索、生成与推理”科学前沿讲座

图/文马时杰
创建时间: 2021-11-15
2434

2021年11月10日上午，人工智能前沿讲座如期进行，本次邀请到了北京大学的彭宇新老师为我们带来主题为《跨媒体智能：检索、生成与推理》的讲座。

主讲人简介：

204702 900784 1

彭宇新，北京大学二级教授、博雅特聘教授、博士生导师。主要研究方向为跨媒体分析与推理、图像视频识别与理解、计算机视觉、人工智能。以第一完成人获2016年北京市技术发明一等奖和2020年中国电子学会科技进步一等奖，2008年获北京大学宝钢奖教金优秀奖，2017年获北京大学教学优秀奖。主持了863、国家自然科学基金等20多个项目，发表论文160多篇，包括ACM/IEEE Trans和CCF A类论文70多篇。多次参加由美国国家标准技术局NIST举办的国际评测TRECVID视频样例搜索比赛，均获第一名。主持研发的跨媒体互联网内容分析与识别系统已经应用于公安部、工信部、国家广播电视总局等单位。担任IEEE TCSVT等期刊编委。

本次讲座以线上会议的方式进行，但丝毫不影响同学们对老师精彩讲座内容的热情。讲座一开始，彭老师为我们介绍了跨媒体智能发展的背景，分析了从多媒体时代到跨媒体时代的需求和技术演变，并解释了计算机处理多媒体的语义鸿沟和异构鸿沟问题。跨媒体智能是数据驱动和知识驱动的结合，其主要任务也很丰富，其中比较关键的问题是：不同媒体间的统一表征问题，只有解决了这个难题不同媒体间的特性才可以很好地度量；另外，跨媒体关联理解与深度挖掘、跨媒体知识图谱构建与学习、跨媒体描述与生成、跨媒体智能引擎等任务也是跨媒体智能的重要内容。

204714 995350 2

随后，彭老师为我们介绍了自己课题组所做的学术研究——跨媒体检索。通俗来讲，就是任给一个特定的媒体，需要检索出与之语义内容相关的其他媒体内容。首先需要解决不同媒体的表征和度量问题。在传统方法上，可以通过构建媒体映射矩阵实现；随后老师又为同学们介绍了很多利用深度学习方法进行跨媒体检索的工作，并结合近几年的论文为同学们详细地分析了很多新颖的思路，引发了同学们的兴趣和热情。通过生成模型和判别模型的结合，进行媒体内判别和媒体间判别，可以得到统一的多媒体表征，后续工作也在全局特征和局部特征提取上投入了更多的注意，并取得了不错的效果。彭老师课题组也发布了大规模的跨媒体数据集——PKU XMediaNet，为这个领域的发展作出了卓越的贡献。

204702 408534 3

204702 565636 4

随后，彭老师又为我们介绍了两个比较活跃的研究领域：视觉—语言相互生成、视觉常识推理。视觉-语言相互生成包括两个内容：其一是视频描述生成，彭老师介绍了双向时序图和层次化视觉—语言对其的方法；其二是文本到图像生成，这是一个更困难的任务，需要考虑语义一致性和生成内容的真实性，彭老师为我们介绍了课题组已有的工作：对称蒸馏网络、类桥生成式对抗网络等。视觉常识推理涉及到多级知识迁移。

最后，彭老师为我们展示了已有的应用系统，包括：监管视频片段、北京大学视频描述生成系统和北京大学文本到图像生成系统等，这些实际应用又点燃了同学们的兴趣，让我们看到了人工智能的强大能力和广泛的应用前景。

204702 807024 5

讲座后，彭老师也耐心解答了同学们的提问，分析了多模态和跨媒体智能的联系与区别，并对跨媒体智能这一领域的未来进行了展望。

中国科学院大学 人工智能学院

人工智能学院举办“跨媒体智能：检索、生成与推理”科学前沿讲座

中国科学院大学人工智能学院