人工智能学院举办“多模态预训练模型研究进展回顾与展望”科学前沿讲座

  11月21日上午,中国科学院大学人工智能学院有幸邀请到了中国科学院自动化研究所研究员和博士生导师刘静,在雁栖湖校区教一楼107教室为同学们带来科学前沿讲座——《多模态预训练模型研究进展回顾与展望》。

115207 461931 1

  刘静老师首先介绍了多模态预训练模型研究的基本背景,从训练数据、模型框架、自监督学习、下游任务四个方面介绍了多模态预训练模型的基本解决方案。训练数据包括视频数据和图文数据,模型框架主要由编码器和解码器组成,老师也为同学们大致讲述了跨模态检索、图像语义描述、视觉问答等多种多模态下游任务。

115207 732096 2

  紧接着,刘静老师通过多模态融合程度、模态重要性、跨模态关联性能、图像与图像关系、文本与文本关系五方面引导同学们更深入地理解多模态预训练模型,介绍了关于数据增强、知识增强、功能增强等多种多模态预训练模型,对多模态预训练模型的能力探测进行了进一步的讨论。

115207 572937 3

  近年来,从预训练模型到预训练大模型,从文本、音频、视觉等单模态大模型,到现在的图文、图文音等多模态预训练大模型,无论在学术界还是企业界预训练模型都得到了广泛关注与爆发式发展。多模态预训练通过联合图文音等多模态内容进行模型学习,其发展在多模态理解、搜索、推荐、问答,语音识别与合成,人机交互等应用领域中具有潜力巨大的市场价值。刘静老师对多模态预训练模型进行了未来研究展望,指出了当前模型研究发展的瓶颈,并针对“大数据+大模型”的研究现状提出了改进思路,例如建立高效计算的大模型网络结构以及适合多模态关联建模的自监督学习等等。

115207 584738 4

  本次讲座激发了同学们对多模态预训练模型相关领域学习与研究的强烈兴趣,同时也让同学们对多模态预训练模型相关研究有了更深刻的理解,十分感谢刘静老师的分享。

115207 521830 5

  更多专家信息:

  刘静,中科院自动化所研究员/博导,中国科学院大学岗位教授,国家优青获得者。研究方向多模态分析与理解,紫东太初大模型。曾获2019年图像图形学会科学技术二等奖,2022年世界人工智能大会“卓越人工智能引领者奖SAIL”。承担或参与多项国家自然科学基金项目、国家973、国家基金重大研究计划、国家重点研发等。已发表高水平学术论文近200篇,谷歌学术引用9000余次,SCI他引次数2500+次,其中有三篇被ESI列为Top 1% 高被引论文。在视觉计算相关领域的多项国际学术竞赛中荣获冠军十余项。