10月26日上午,中国科学院大学人工智能学院有幸邀请到了北京大学智能学院教授王立威老师作为主讲嘉宾,在雁栖湖校区教一楼114教室为同学们带来了科学前沿讲座——《深度学习理论研究前沿》。
在第一部分中,王老师介绍了带有CoT的LLMs在解决基本数学和决策问题中的表达能力。他通过给出一个不可能的结果表明,对于基本算术或者方程任务,有界深度变换器不能直接产生正确的答案,除非模型大小关于输入长度超多项式增长。相反,通过构造证明,常量大小的自回归变换分析器足以通过使用常用的数学语言格式生成CoT导数来解决这两个任务。
在第二部分中,王老师说明了宽度有界的深度神经网络是通用的逼近器。然后他讨论了深度神经网络的训练,传统的观点认为训练深度网络是一个高度非凸的优化问题。然而,经验性地使用梯度下降法往往可以找到全局极小值。最后王老师证明,如果深度网络足够宽,那么从随机初始化开始,梯度下降可以以线性收敛速度找到全局最优解。
最后针对同学们提出的问题,王老师都给出了精彩的回答,讲座圆满结束。
更多专家信息:
王立威,北京大学智能学院教授。长期从事机器学习研究。在机器学习理论算法及医疗影像应用等方面取得一系列成果。在机器学习国际权威期刊会议发表高水平论文200余篇。担任人工智能权威期刊TPAMI编委。多次担任机器学习旗舰会议NeurIPS,ICMLICLR领域主席。曾入选AI’ s 10 to Watch,是该奖项自设立以来首位获此荣誉的亚洲学者。获得CLR2023 Outstanding Paper Award.