人工智能学院举办“从看得见到摸得着:触觉增强的多模态大模型”科学前沿讲座

  • 文/图 张善斌
  • 创建时间: 2026-05-28
  • 60

  5月27日上午,中国科学院大学人工智能学院邀请北京交通大学韩文娟副教授,在雁栖湖校区教一楼213教室为同学们带来科学前沿讲座——《从看得见到摸得着:触觉增强的多模态大模型》。多模态大模型已成为具身智能环境感知的有效解决方案。然而,触觉模态与语言模态具有不同的特性,当前触觉多模态大模型往往过于简化这一点,将触觉视为语言的“子模态”。具体而言,现有模型使用触觉编码器将触觉信号映射到大语言模型的文本表示空间中,这种处理方式缺乏对模态差异的进一步建模,使模型难以理解两种模态之间的细微差别。因此,本次讲座围绕触觉多模态大模型的建模、训练及下游任务应用的理论与方法展开系统化讨论,对推动具身智能落地具有重要的科学意义与应用价值。

104648 823714 01

  韩老师首先通过展示一个触觉辅助插孔的示例,为大家介绍了触觉增强的应用场景,引出了本次讲座的主题——触觉增强的多模态大模型。当前大模型虽然在文本、音频、图像等领域有着出色表现,但与物理世界仍存在“最后一公里”的问题,而增加触觉模态将有望弥合这一鸿沟。触觉感知能够协助感知纹理细节、物品物理属性以及主动物体感知等方面,在具身智能、灵巧操作等任务中有着良好的应用前景。与视觉感知相比,触觉感知存在以下三点区别:触觉可以作为视觉的延伸;触觉能够获取视觉之外的信息;触觉可以协助完成更精细的工作。对人类而言,触觉分为肤觉与运动觉两种:肤觉可感知温度、压力、纹理等信息,运动觉则负责位置、运动、力量等信息的感知。目前常见的机器人触觉传感器按形态可分为单指、双指、多指(限于指尖)、多指(不限指尖)四种,按原理可分为压感式、磁触式、视触觉等。

104700 736319 02

  在介绍完上述硬件层面的相关知识后,韩老师进一步讲解了软件层面的相关研究。为解决现有触觉数据集模态不全的问题,韩老师团队构建了大规模触觉数据集Touch100k,该数据集涵盖多种触觉模态与视觉-触觉任务,并通过语义信息实现不同模态的融合。在模型层面,团队提出了SToLa架构,该架构分别对不同模态输入进行编码,随后将编码后的模态信息输入大语言模型处理,其中大语言模型采用MoE(混合专家)架构分别处理不同模态信息,最终在多项触觉任务中取得了出色效果。随后,韩老师简要介绍了触觉传感推理层面的研究进展,相关工作主要围绕长程时空推理的一致性展开。

104700 917780 03

  此后,韩老师讲解了世界模型在触觉感知中的前沿研究。Tactile-VLA将触觉感知融入视觉-语言-动作(VLA)模型,在传统架构中引入了触觉与本体感知两种模态输入,借助模仿学习与思维链(CoT)推理,实现了在精细操作任务中的出色表现。

  最后,韩老师对触觉多模态的未来研究进行了展望,指出未来工作可围绕更广泛领域任务、更多样触觉传感器应用等方向展开。讲座结束后,韩老师热心地解答了现场同学的若干问题,赢得了大家热烈的掌声。

更多专家信息:

  韩文娟,北京交通大学副教授。曾任北京通用人工智能研究院研究员和新加坡国立大学博士后研究员。研究方向为多模态大模型及其在综合交通等领域的应用。发表学术论文50余篇,曾获ACM SIGAI CHINA新星奖、NLPCC Out-standing Paper Award等奖励。多次担任EMNLP、COLING等高水平学术会议Workshop和Session主席。主持研发了北京交通大学TransGPT·致远交通大模型。