5月9日上午,中国科学院大学人工智能学院有幸邀请到了中国人民大学高瓴人工智能学院长聘副教授宋睿华老师,在雁栖湖校区教一楼108教室为同学们带来科学前沿讲座——《做活的AI—长程对话与多模态交互》。在报告中,宋睿华老师探讨了AI在生成高质量内容、革新沟通模式、以及展现多模态理解方面的能力,讨论了AI如何有效进行说服,AI在数据分析、自然语言理解、乃至模仿人类行为(如预测眼动轨迹)等方面的进展。另外,宋老师还讨论了人与AI的交互过程中可能产生的伦理与安全问题。
在学术界对大模型的复现和尝试中,通过构造特定的指令数据集,能够训练出表现优异的模型。尤其在多轮对话中,模型面临的挑战包括理解上下文、处理省略和指代等问题。为解决这些难题,研究者通过生成类似人类的对话来改进模型的上下文理解能力。此外,通过构造“好”与“坏”的对比数据,使模型能区分并学习更优的响应策略,从而提升其在多轮对话中的表现。这种方法不仅增强了模型的理解能力,还提高了其在复杂对话场景中的适应性和准确性。
接下来,宋老师更进一步地讨论了AI用于说服性多轮对话的可能性。在各种生活场景中,如情感支持、法律辩论、求职、销售以及家庭沟通中,说服性交流具有重要性及挑战性。宋老师特别强调了在说服过程中既要达到目标,又要考虑到对方的感受和持续的对话。其所在团队通过研究和实践,探索了利用大模型来编写更具真实感和协商性的对话,以解决在收集和处理真实数据时遇到的问题,从而提升说服性交流的效果。宋老师还特别提及了讨论了构建大规模对话数据集及推荐模型的创新方法。为了提高模型的性能,他们设计了一种模式,使模型能够生成更丰富、更具有背景的故事,而非仅从单一视角出发。此外,他们还受到心理学中关于说服技巧原则的启发,将这些原则融入模型,使模型能生成更具体、更有逻辑的策略,从而提高说服力。这一系列步骤和方法的创新,显著提升了模型在说服性对话任务中的表现。
宋老师还介绍了团队在模拟人类真实眼动方面的工作,重点在于模拟眼球在不同力的影响下的运动轨迹。研究中,眼球被比作弹簧,其运动受到惯性、视觉吸引力(如特定颜色的吸引力)和语音吸引力三个主要力量的影响。通过构建简单的神经网络,结合物理和医学背景,研究者尝试预测眼球的下一步运动。特别提到了使用MLP(多层感知机)来加合这三个力的影响,并提出了一种新的方法来优化预测,包括利用视频定位技术识别特定目标(如垃圾桶)的位置。此外,还讨论了将图像和语音信息融入模型以提升预测准确性。
最后,宋老师讨论了如何利用大语言模型推理和行动交互的模式来控制机器人与他者进行交互,特别是在非指令性互动中的表现,如握手或击掌。研究者通过将文本信息和动作数据统一在同一个空间中,使机器人能够根据人类的行为做出相应的反应,从而实现更自然、真实的交互体验。
宋睿华,国家高层次人才特聘教授,现任中国人民大学高瓴人工智能学院长聘副教授。曾任微软亚洲研究院主管研究员,微软小冰首席科学家,近期研究兴趣为多模态理解、创作和交互。发表学术论文100余篇,申请专利30余项,曾获多个会议的最佳论文奖。她的算法完成了人类史上第一本人工智能创作的诗集《阳光失了玻璃窗》。她作为学科带头人参与发布文澜系列多模态预训练大模型,玉兰大语言模型等,并曾担任多个会议的领域主席。