人工智能学院举办“三维视觉信息处理：基于在线学习的SLAM”科学前沿讲座

文/图王紫祺
创建时间: 2024-10-16
1720

2024年10月14日上午，中国科学院大学人工智能学院有幸邀请到了来自北京大学跨媒体通用人工智能国家重点实验室的查红彬教授，在雁栖湖校区教一楼305教室为同学们带来科学前沿讲座——《三维视觉信息处理：基于在线学习的SLAM》。在报告中，查红彬教授深入浅出地讲解了三维视觉信息处理领域的最新进展，尤其是在线学习和SLAM（Simultaneous Localization and Mapping，即同时定位与地图构建）在这一领域的重要性。

1 1

报告伊始，查教授首先介绍了视觉在感知系统中的核心地位。视觉占据了人类感知信息总量的80%以上，能够为大脑提供最为直接和详尽的外界环境信息。因此，视觉信号的处理速度极快，是人类迅速感知和响应周围世界的关键。查教授还提到，“视觉的起源与寒武纪生物大爆发”假说，即认为视觉在生物进化过程中占据了重要地位，推动了复杂生物系统的发展。

查教授详细阐述了人脑对视觉信息的处理过程。视觉信号从眼睛传递到大脑后方的视觉皮层，进行基础的信号处理，然后传递至额叶，与其他感官信息和推理能力进行整合。视交叉这一特殊结构能够将两个眼睛对同一视野的信息融合起来，提供立体感和深度知觉，这正是三维视觉的重要基础。

在计算机视觉领域，如何让计算机模拟人类的视觉处理机制，一直是研究的重点。查教授以大卫·马尔的“计算视觉”理论为基础，讲述了如何将视觉中的许多概念转化为可计算的问题。在三维视觉处理中，通过三角测量原理，可以利用两幅视角不同的图像推算出物体的深度。然而，要准确匹配两幅图像中的对应点，仍然是计算机视觉中的难题之一。查教授指出，这个问题可以通过三维扫描系统和激光标记技术得到一定的解决。激光具有聚焦能力强、精度高的特点，能够生成高分辨率的三维图像。然而，在多次扫描不同位置的数据时，还需要得到扫描仪的运动轨迹和姿态，才能将各个位置的数据融合到一个统一的坐标系中。目前的技术包括利用磁场来测量扫描仪的运动状态。

2 1

查教授进一步讨论了三维视觉的主要研究方向，包括三维场景重建、目标检测与跟踪、对象识别与场景理解、定位与导航、运动视觉以及人机交互等。当前的研究主要面临以下挑战：一是如何高效获取三维数据，二是应对对象和环境结构的复杂性，三是大规模场景的三维表示与数据处理难度较大。这些问题的解决对于构建“数字中国”等大规模三维重建项目尤为重要。

报告中还特别提到三维视觉的基础理论——多视点几何。这一理论探讨了不同视点之间的几何关系，并利用李代数对其进行变换描述，被认为是计算机视觉中为数不多的“美丽”理论之一。

接下来，查教授从SLAM的基本概念出发，介绍了该领域的历史演变。SLAM是解决定位与地图构建双重问题的技术，通过一系列的图像数据以及多模态传感器信息，逐步构建出环境的三维地图，并实现自我定位。最早在1986年由卡内基梅隆大学提出，随后发展出了mono-SLAM、MSCKF、LSD-SLAM、ORB-SLAM、DSO等一系列经典算法。

3 1

SLAM的实现依赖于多视点几何和多传感器数据融合，然而目前存在两个主要问题：一是误差积累严重，导致对复杂环境的适应性不足；二是现有优化算法的计算量大，难以在移动设备上实现实时性。查教授分析了问题产生的原因，认为在动态视觉轨迹下，算法过于依赖像素信息，而忽略了图像的时间相关性。如果能够有效利用时间上的连续性（数据流），则可以通过模型预测与实际传感器数据之间的误差调整预测结果，从而大幅提升SLAM的鲁棒性和实时性。

查教授指出，SLAM算法的发展已经进入了在线学习的新时代。通过结合时间相关性，SLAM系统能够自监督地进行在线学习。具体而言，可以利用循环神经网络RNN和Transformer等神经网络模型，来捕捉图像数据的时间连续性，从而在SLAM过程中动态调整模型预测。

SLAM中的在线学习不同于传统的预训练方式，它能够根据环境的实时变化自我调整和优化，更好地应对动态环境的挑战。这种结合使SLAM成为三维视觉和具身智能（Embodied Intelligence）的关键技术之一。

4 1

查教授总结了目前三维视觉处理的关键问题，强调了现实环境中SLAM的实时性和鲁棒性是最主要的挑战。虽然大规模的预训练模型可以利用海量数据来增强性能，但面对动态的真实世界，仅依赖大模型并不足以解决问题。需要引入在线学习和时间相关性，才能实现真正的智能化三维处理。

查红彬教授的讲座深入探讨了三维视觉和SLAM技术的前沿发展，结合学术研究与实际应用，启发了与会师生的思考。通过此次讲座，同学们不仅了解了SLAM在具身智能和三维视觉处理中的核心地位，还认识到利用时间相关性和在线学习技术的重要性。相信随着研究的深入，三维视觉与SLAM技术将会在智能机器人、自动驾驶等领域发挥更大的作用。

更多专家信息：

查红彬，北京大学信息科学技术学院智能科学系教授，机器感知与智能教育部重点实验室主任，主要从事计算机视觉与智能人机交互的研究，在三维视觉几何计算、三维重建与环境几何、三维物体识别等方面取得了一系列的研究成果。出版学术期刊及国际会议论文300余篇，其中包括IEEE T-PAMI、IJCV、IEEE T-VCG、IEEE T-RA、IEEE T-SMC等国际期刊以及ICCV、ECCV、CVPR、CHI、ICML、AAAI、ICRA等国际学术会议论文100余篇。

中国科学院大学 人工智能学院

人工智能学院举办“三维视觉信息处理：基于在线学习的SLAM”科学前沿讲座

中国科学院大学人工智能学院