人工智能学院举办“大模型慢思考技术探讨” 科学前沿讲座

文/图袁之益
创建时间: 2025-04-25
1546

2025年4月18日上午，中国科学院大学人工智能学院有幸邀请到了中国人民大学高瓴人工智能学院赵鑫教授，在雁栖湖校区教一楼108教室为同学们带来科学前沿讲座——《大模型慢思考技术探讨》。最近以DeepSeek-R1为代表的大模型慢思考技术受到了较大关注，慢思考模型通过生成更长的思考过程来解决更具挑战性的问题，在多个科学场景和应用领域都取得了重要突破。本次报告将聚焦大模型慢思考的基础技术与实现方法，对于其中可能涉及到的技术路径进行探索和系统性讲解，主要介绍以强化学习为主线的关键技术，并结合自身实践经验讨论其中的技术挑战，然后探讨推理模型的科学价值，并且总结现阶段推理型的局限以及未来的技术发展趋势。

图1_1.jpg

在讲座的开始，赵老师首先介绍了进行大模型能力提升的两种方式：训练时间扩展与测试时间扩展。训练时间扩展关注参数与数据规模，进行一次性整体投入，优化模型整体性能；测试时间扩展关注输出token或时间，在每次查询时都进行投入，优化查询特定性能。这两种方式可以同时使用，互相提升。赵老师强调，在目前，对于测试时间扩展的研究具有重要意义。

图2_1.jpg

接着，赵老师对于测试时间扩展中的慢思考技术进行了重点介绍。慢思考技术的基本思路是搜索与学习的结合，将大规模算力转换为性能提升，其可能的实现方法主要有四个：基于多次采样的方法，基于树搜索的方法，基于长链数据SFT的方法和基于RL的方法。目前，基于RL的方法研究较为火热，并且有了不错的产品，例如：GPT-o1，Deepseek-R1等模型。

图3_1.jpg

之后，赵老师总结并分享了自己对RL算法的相关思考。首先是RL起始模型方面：起始模型能力要足够强，否则RL可能还是容易训不上去；数学基座模型优势非常明显；纯检查aha moment的模式意义不大；SFT对于大尺寸模型来说学习效率非常高。然后是对于RL训练算法的思考：RL训练算法涉及大量可调参数、超参数，需要研究性能诊断算法，发现问题所在并进行改造；目前探索相对收敛，对RL经典算法的挖掘与适配还不够；RL算法对于算力的需求较高，算力使用效率相对较低。同时，赵老师对于GRPO, DAPO, VAPO等RL算法也进行了逐一介绍，对于算法实现的细节进行了详细的分析。

最后，赵老师总结了现有推理模型的主要问题，包括：推理成本过高，显著限制了模型的大规模部署，模型仍然不能充分控制推理过程，以及如何做超长的、面向复杂任务的推理过程等问题。

更多专家信息：

赵鑫，中国人民大学高瓴人工智能学院教授。2014年7月于北京大学获得博士学位，随后进入中国人民大学工作至今。研究领域为信息检索与自然语言处理，共计发表论文200余篇，谷歌学术引用2.9万余次，曾主导研发了玉兰系列大语言模型，组织编写了大语言模型综述论文《A Survey of Large Language Models》(预印版文章)以及《大语言模型》中文书(高等教育出版社出版)。曾荣获2020年吴文俊人工智能优秀青年奖、ECIR 2021时间检验奖，CCF-IEEE CS青年科学家奖。

中国科学院大学 人工智能学院

人工智能学院举办“大模型慢思考技术探讨” 科学前沿讲座

中国科学院大学人工智能学院