11月13日上午,中国科学院大学人工智能学院有幸邀请到了天津大学教授郝建业老师,在雁栖湖校区教一楼405教室为同学们带来科学前沿讲座——《具身智能体》。
当前多模态大模型发展势头迅猛,在虚拟交互任务中展现出卓越的能力,但在处理物理世界中的具身智能任务时,仍然面临一系列关键挑战,包括空间理解与推理能力不足、精细化操作能力缺失等。这些问题凸显了大模型向具身智能方向发展时的瓶颈与不足。
在本次报告中,郝老师围绕大模型在具身智能时代面临的核心挑战,深入探讨了数据、模型以及优化与推理三方面的关键瓶颈。报告结合行业最新进展,在数据自动化生成、分层模型架构演进到高效推理与端侧部署等方面分享了最新研究思路,并对具身智能的未来研究方向和工作重点进行分析和展望。

在报告开篇,郝老师从当下语言大模型的迅猛发展谈起。他指出,随着技术的快速迭代,当前的大模型在科学问答、数学推理、程序编写等多项任务上已达到甚至超越人类专家水平,OpenAI o3、Gemini 2.5 Pro、DeepSeek R1 等代表性模型相继推出,展现出强劲的发展势头。
随后,郝老师介绍到,当前主流大模型普遍采用多阶段训练策略。在预训练阶段通过通用知识学习推理以及长上下文能力的构建,逐步形成更强的语言理解与复杂任务处理能力。在后训练阶段主要采取监督微调策略,强化模型推理能力,使得模型在逻辑推理、数学求解、代码编写等领域表现大幅提升。郝老师表示,随着训练数据规模、模型参数量与算力投入的增长,模型性能遵循Scaling Law规则呈指数式改善,这一规律已经成为大模型发展的黄金准则,推动新一代类人智能系统快速涌现。

在介绍完语言大模型的演进后,郝老师进一步讲解了视觉语言模型的工作进展与当前存在的问题。他指出,通过将视觉编码器与语言大模型相结合,能够实现对图像、视频等多模态输入的理解,并完成描述、问答等任务。然而,这类模型仍主要依赖大规模图文对齐预训练,其本质上是视觉信息的语言化,在真实物理世界的复杂情境中仍显不足。

接下来,郝老师系统阐述了具身智能的核心架构。他指出,真正进入物理世界的智能体,需要将认知决策与动作控制这两个方面分层处理,分别对应类似人类的“大脑”与“小脑”。具身大脑负责理解任务需求、综合场景信息并生成拆解后的高层级步骤,具身小脑则在此基础上完成更细致的动作规划,包括物体的三维定位、抓取轨迹、手臂运动控制等,最终生成机器人可执行的精准动作。这种分层结构使机器人能够在开放环境中处理复杂指令,实现从任务规划到连续动作控制,是具身智能迈向应用的关键。
在训练方面,郝老师介绍,具身大模型正通过“大规模离线预训练”结合“真实环境在线微调”的方式提升模型性能,同时结合仿真生成数据以突破数据稀缺的瓶颈。随着训练规模的扩大,具身智能也呈现出类似语言大模型的Scaling Law,即任务覆盖面越广、训练数据量越大、机器人形态越多样、物体与环境组合越丰富,模型的泛化与策略稳定性越强。然而,数据采集昂贵、模型结构复杂以及训练流程耗时仍是具身智能迈向规模化必须面对的三大挑战。

最后,郝老师展望了具身智能发展的未来趋势。他指出,当前具身大模型在数据、模型与优化三方面的突破将决定其真正落地的速度和广度,从模型架构上来说,具身智能正在从端到端转向具身大脑结合具身小脑的分层体系,小脑模型正向Transformer结合扩散模型的方向演进,从数据角度来说,应逐步降低对专家数据的要求,从环境交互反馈中学习,从而提高具身模型的性能上限。
郝老师表示,未来具身模型在推理速度、精细化操作以及场景泛化上仍面临挑战,但整体发展趋势清晰,具身智能正迈向真正可应用、可扩展的新时代。讲座结束后,郝老师热心地解答了现场同学的若干问题,现场气氛热烈,掌声不断。
更多专家信息:
郝建业,博士,天津大学智算学部教授,华为大模型算法实验室主任。主要研究方向为强化学习、具身智能和多智能体系统。在Nature Communications和ICML/NeurIPS/ICLR等人工智能领域CCF-A类国际会议发表论文100余篇,专著3部。获国家自然科学基金委优青、国家科技部2030人工智能重大课题、基金委人工智能重大培育等项目资助10余项,研究成果获国际会议最佳论文奖3次,NeurIPS大会竞赛冠军4次。研究成果在国产工业基础软件智能化、自动驾驶、游戏AI、互联网广告及推荐、5G网络优化、工业物流调度等领域广泛落地应用。