人工智能学院举办“世界模型驱动的物理AI基础模型”科学前沿讲座

人工智能学院
创建时间: 2026-04-03
1310

2026年4月1日上午，人工智能学院举办了科学前沿讲座，有幸邀请到了极佳科技联合创始人、首席科学家朱政老师，为同学们带来主题为《世界模型驱动的物理AI基础模型》的精彩报告。近年来，得益于海量的互联网数据和成熟的后训练策略，语言模型在数字世界应用中取得了极大的成功。与之相对应，研究人员正在探索将语言模型的成功迁移到物理世界，受限于训练数据、模型架构、强化学习算法等限制，物理世界智能体尚处在探索阶段。本报告从世界模型出发，详细介绍了其在数据生成、闭环仿真、下一代WA（World-Action）等方面的巨大潜力，并展示了极佳视界（GigaAI）在GigaBrain、GigaWorld、DriveDreamer系列模型的最新前沿研究进展。

112054 731673 01 【01】

讲座伊始，朱老师从世界模型的历史沿革与核心概念切入，为同学们梳理了该领域的学术脉络。他指出，世界模型的概念最早在1971年被首次提出，它代表了人脑海中从具体到抽象的理解，是智能体决策和行动所依赖的内在认知基础。结合现代认知神经科学与AI前沿理论，Yann LeCun将其进一步明确定义为：世界模型的核心功能是基于行动者提出的想象动作序列，来预测未来可能的世界状态。世界模型的质量直接决定了智能体的决策上限，若其预测缺乏合理性，将引入系统性偏差，导致策略收敛于次优甚至危险的行为。随后，朱老师盘点了当前业界在世界模型方向的最新进展，包括OpenAI的Sora、DeepMind的Genie系列、李飞飞团队的World Labs生成交互世界、NVIDIA的Cosmos等，展现了该领域百花齐放的蓬勃态势。

在明确了基本概念后，朱老师深刻剖析了物理AI面临的核心痛点——数据短缺。他对比指出，当前数字世界的大语言模型（LLM）如GPT-5的训练数据量已达上百万亿Tokens，而物理世界的视觉动作语言模型（VLA）训练数据量往往仅有前者的万分之一。物理世界的数据采集存在价格昂贵、效率低下的显著弊端。为此，世界模型在物理世界中展现出了三大核心应用价值：首先是作为数据引擎，它能够提供高效且高保真的低成本数据来源，替代传统低效的真实数据采集；其次是作为策略环境，世界模型提供了贴近现实的闭环仿真和评测环境；最后是作为策略生成器，通过构建世界动作模型（WAM），使机器人能够像人类一样执行动作、想象未来状态并预测奖励，从而实现持续学习与自我进步。

112116 706696 02 【02】

在技术落地与实践方面，朱老师详细介绍了极佳视界（GigaAI）在具身智能领域的全栈布局。极佳视界围绕“模型-本体-场景”三位一体，致力于构建机器人的“通用大脑”和“原生本体”。在世界模型层面，团队自研了行业领先的具身世界模型平台GigaWorld系列，涵盖视频生成、3D生成等核心能力。基于此平台，团队提出了高效的以动作为中心的GigaWorld-Policy大模型，该模型相较于现有WA模型实现了10倍的推理速度提升，并且仅需使用10%的真实机器人数据，就能匹配甚至超越基线模型的任务成功率，大幅降低了对真实数据的依赖。在端到端策略模型方面，朱老师展示了GigaBrain系列VLA大模型，强调了通过世界模型进行强化学习的数据闭环系统，实现了具身智能大模型能力的可持续Scaling。

此外，朱老师还分享了多项支撑具身智能前沿探索的核心学术成果。例如，EMMA技术重点解决了具身数据的表观泛化和多视角一致性问题；EgoDemoGen提出了自身视角的数据生成方法，实现了视角变化下极其稳定的机器人操作；而MimicDreamer则致力于解决人类演示由于在视角（存在抖动和视差）、动作（关节自由度差异）以及视觉（外观与材质差异）等方面的巨大差距，难以直接用于机器人训练的难题，成功把低成本的人类演示转换成了可直接用于训练机器人策略的数据。最后，轻量级模型SwiftVLA在极小开销下解锁了时空动态建模能力，进一步丰富了VLA模型的架构选择。

112116 389682 03 【03】

讲座的最后一部分，朱老师将视野扩展至更广阔的自动驾驶与商业化落地场景。围绕物理AI的商业化落地路径，朱老师描绘了极佳视界的三阶段战略蓝图。首先是快速落地的工业场景，这类场景具有需求高、空间大、政策支持等优势，可以类比自动驾驶的矿山与港口等特定场景，典型应用包括仓储物流中的打包贴标、3C电子制造中的分拣以及汽车制造的零部件搬运等。其次是商业服务场景，如酒店客房整理、餐厅收台以及末端零售配送等，这被视为通用智能进入更复杂家庭场景的重要过渡期。

最后，朱老师着重指出，家庭场景是具身智能通用机器人最重要的场景和终极目标。未来的机器人不仅能够胜任做饭、洗碗、收拾屋子等日常家务，甚至还能参与乒乓球、羽毛球、网球等复杂的高动态球类运动。他大胆预测，未来两年将是具身智能在家庭场景中技术爆发的关键时间点，物理AI将真正迎来服务千家万户的崭新时代。讲座在热烈的掌声中圆满结束，朱老师的前瞻性视野和深厚学术造诣引发了同学的广泛共鸣与思考。

更多专家信息：

朱政，极佳科技联合创始人、首席科学家，智源青年学者，主导和深度参与融资超10亿元，公司估值超50亿元。2019年博士毕业于中国科学院自动化研究所；2019年至2021年在清华大学自动化系从事博士后研究。在TPAMI、CVPR、ICCV、ECCV、NeurIPS等顶级期刊和会议上发表论文70余篇，文章总引用19000余次(Google Citations)，连续4年入选全球前2%顶尖科学家。获得2025年吴文俊人工智能科技奖自然科学一等奖、PRCV2025最佳学生论文奖、CCF杰出论文奖。代表作SiamRPN和DaSiamRPN是深度学习时代最具影响力的目标跟踪算法之一，开辟了区域候选孪生网络目标跟踪的研究方向，分别被引用3600余次和1800余次，并被集成进OpenCV；BEVDet是BEV感知领域的代表性算法，被多家车企和自动驾驶公司3D感知方案所采用，累计被引用1000余次；WebFace260M是全球最大的人脸识别数据集，被500余家科研机构申请使用，DriveDreamer当选ECCV最具影响力论文榜单。曾获NIST-FRVT、COCO、VOT等顶级视觉竞赛冠军，并在KITTI、nuScenes等榜单长期排名第一。多次在CVPR、ICCV上组织Workshop和比赛，多次担任NeurIPS、ICLR、AAAI的领域主席。

中国科学院大学 人工智能学院

人工智能学院举办“世界模型驱动的物理AI基础模型”科学前沿讲座

中国科学院大学人工智能学院