2024年11月25日上午,中国科学院大学人工智能学院有幸邀请到了中国科学院自动化研究所研究员刘静老师,在雁栖湖校区西区一教学楼二楼214教室为同学们带来科学前沿讲座——《多模态大模型的研究与实践》。多模态大模型通过联合图文音等多模态内容进行模型学习,其发展在多模态理解、搜索、推荐、问答、语音识别与合成,人机交互等领域应用中具有巨大的潜力。本讲座将从多方面介绍大模型的工作原理和进展,分享研究团队在该方面的最新工作,以及对多模态大模型的思考和展望。
多模态大模型是针对图文音视等各种弱关联模态信息,利用自监督学习与模型微调等手段,建立多模态融合表征、关联协同与相互转化等、已被认为是实现类人感认知能力的重要途径,现已得到无论在学术界还是企业界的广泛关注与爆发式发展。
首先,刘老师对多模态大模型进行了背景介绍。多模态大模型是基于大语言模型衍生出来的大模型,分为编码器模型和生成式模型。编码器模型的代表性模型是Bert,一开始学术界基于Bert去构建大模型。但是随着数据量越来越大,算力越来越强,研究者发现了Gpt模型对于文本生成的巨大优势。随着Openai公司推出大语言模型Chatgpt,“大模型”成为学术界的热点,基于Gpt的多模态大模型也登上历史舞台。接着刘老师从数据、模型、算法、应用四个角度解释了基于Gpt的多模态大模型,让我们对多模态大模型有了更加深刻的了解。
刘老师还介绍了本人研究团队在多模态大模型构建与优化方面的最新工作。其中,代表性工作为“紫东太初”大模型。“紫东太初”大模型是国际首个图文音大模型,从三模态走向全模态,支持多轮问答、文本创作、图像生成、3D理解、信号分析等全面问答任务。刘老师还展示了研究团队的多模态大模型demo,生动形象地展示图文音大模型的性能和效果。
最后,刘老师对本次讲座内容进行了总结,指出多模态大模型的发展前景广阔,随着技术的不断成熟和创新,它们将在更多领域发挥重要作用,推动人工智能技术的整体进步。讲座的最后,刘老师还和一些感兴趣的同学进行沟通和交流。大家在本次讲座中受益匪浅。
更多专家信息:
刘静,中国科学院自动化研究所研究员、国科大岗位教授。研究方向多媒体分析与理解,带领团队研发了国际首个图文音大模型“紫东太初”。相关成果曾获中国电子学会自然科学一等奖,北京市自然科学二等奖,中国图像图形学学会自然科学二等奖,世界人工智能大会卓越人工智能引领者奖等。已发表高水平学术论文近200篇,谷歌学术引用16000+次,SCI他引7000+次。荣获国际学术竞赛冠军十余项。