人工智能学院举办“三维视觉信息处理:基于在线学习的SLAM”科学前沿讲座

  • 文/图 张明宇
  • 创建时间: 2023-11-13
  • 4893

  11月7日上午,中国科学院大学人工智能学院有幸邀请到了北京大学信息科学技术学院智能科学系教授查红彬老师,在雁栖湖校区教一楼227教室为同学们带来科学前沿讲座——《三维视觉信息处理:基于在线学习的SLAM》。讲座围绕基于在线学习的SLAM问题,介绍了面向自监督视觉里程计的序列对抗学习方法和具有在线自适应能力的自监督SLAM学习等内容。

1113.11

  两只眼睛和一只眼睛看世界有什么区别呢?查老师首先从“左眼和右眼分别看手指会出现不同的现象”引入了视差的概念,两只眼睛可以获得三维信息,根据视差可以对距离进行计算。一般而言,食肉动物的眼睛都长在前面,而鸟类、兔子、鱼等被捕食的动物的眼睛多在一侧,这是自然选择形成的,有利于被捕食者观察环境、躲避袭击,形象的例子极大地引起了同学们的兴趣。

  三维视觉是指二维图像加上深度信息,虽然原理非常容易理解,但市场上卖的三维相机效果比较差,这是为什么呢?查老师提到这是由于对应点匹配的问题比较难解决,难以定义两幅图像中不同的像素是否相似,计算机视觉的两大核心问题——图像分割和立体视觉的对应像素匹配的困难都在于像素相似性的判断,然后查老师介绍了在工程上可以使用幅射光的方法对这个问题进行解决。

1113.12

  三维信息对于我们的生活非常重要,从人类认识世界到自动驾驶都需要三维视觉信息。但在二维图像的基础上如何获取三维信息呢?查老师讲到可以通过添加约束条件,根据不同视点得到的图像、不同视点之间的转换关系推出三维空间中点的几何位置,这也是多视点几何这门学科研究的问题。

  三维视觉的主要研究课题包括三维场景重建、三维结构与行为分析和三维定位与导航等。查老师提到三维视觉与二维计算机视觉领域有着紧密的联系,比如二维人脸识别可以结合三维信息对表情进行识别。然后查老师举了光度立体视觉的例子,即当相机、光源和目标物体相对位置固定不变时,使用不同方向的光源照射同一目标物体,求解目标表面的法向分布或者深度地图。

  三维视觉目前的关键问题主要在于数据如何获取、运动的传感器如何与三维视觉较好地结合以及怎样应对对象物时空结构的复杂性等。查老师在这部分首先介绍了计算摄影学,然后重点讲述了即时定位与三维地图重建,提出如何把动态视觉与三维视觉结合起来,提升现实环境中三维处理的实时性与鲁棒性,是一个值得考虑的问题。

  查老师随后讲到了如何用在线学习的方式解决SLAM问题,其中传感器位置的寻找和建模是两个比较重要的任务。由于现实条件的限制需要同时将Localization和Mapping结合起来,进行三维建模。

1113.13

  目前SLAM问题主要有两点:1、误差积累,可扩展性不好;2、计算资源有限,计算成本太高。导致这些问题主要是因为没有注意多视点序列的相关性,因此可以对时间上的相关性进行利用,将问题转变为预测器的构造问题,在参数空间中寻找最优解,而构造预测器又是一个学习的问题,因此可以通过在线学习的方式,根据误差修正结构。

最后查老师又讲述了基于在线学习的SLAM与Gpt的区别和联系,并提到相关研究中要考虑动态变化、动态视觉和时间相关性,并尝试向持续学习方向扩展。同学们通过本次讲座了解了SLAM的基本知识以及基于在线学习的SLAM方面的研究进展,受益匪浅。

更多专家信息:

  查红彬,北京大学信息科学技术学院智能科学系教授,机器感知与智能教育部重点实验室主任。主要从事计算机视觉与智能人机交互的研究,在三维视觉几何计算、三维重建与环境几何建模、三维物体识别等方面取得了一系列成果。出版学术期刊及国际会议论文300多篇,其中包括IEEE T- PAMI,IJCV, IEEE T-VCG, IEEE T-RA, IEEE T-SMC,ACM T-IST, JMLR,PR等国际期刊以及ICCV, ECCV, CVPR, CHI, ICML, AAAl,I-CRA等国际学术会议论文100余篇。