人工智能学院博士生庄传青在AAAI上发表文章

  • 人工智能学院
  • 创建时间: 2022-01-10
  • 3837

 

个人介绍

  庄传青,中国科学院大学人工智能学院2021级在读博士生,三维视觉与分析实验室。导师:肖俊教授。研究领域:全景计算机视觉。

  AAAI发表文章链接:https://arxiv.org/abs/2112.14440

庄

 

论文背景

  全景相机是一类具有完整空间视场的新型相机,能够在单次成像下捕获180°×360°的全空间信息。基于全景相机的特性,使用全景图像进行重建可以避免传统相机重建时点云配准等后处理带来的时间资源开销与引入的配准误差。此外,在室内场景重建中,全景图像的全空间信息有助于为重建算法提供空间结构特征,指导其在墙壁、天花板等弱纹理区域上的重建。因此,基于单目全景图像的重建方法称为近年来室内场景重建的热门研究方向。

  全景图像一般以等距长方投影方式表示为二维图像,在此展开形式下,成像采样密度像两极迅速增加,使得传统卷积网络在图像两极处的空间感受野缩减。为解决此问题,此前的单目全景图像密集深度估计网络常常借助全景图像的立方体透视重投影来消除感受野失真。或根据等距长方投影几何特性在不同的纬度坐标下修改卷积核形状,然而,相关实验表明该方法在语义分类、结构提取等方面效果优秀,但在密集深度估计方面效果欠佳。为此,本论文针对全景图像提出了一种新的自定义卷积层,扩展了卷积核在全景图像上的感受野,并在单目全景图像密集深度估计任务上取得了当前的最佳效果。

  论文概要

  本论文采用如下方法构造了一种自适应组合膨胀卷积层:1),将较大的感受野分解为一组具有不同扩张系数的3×3卷积;2),使用通道注意模块,为以上卷积提取的特征预测一组通道级注意力系数;3),对以上特征求加权和,其结果不仅具有较大的感受野,且在不同的特征通道上的感受野具有不同的区域注意系数。

  本论文通过将ResNet编码器中的卷积层替换为自适应组合膨胀卷积层,构造了用于单目全景图像深度估计的ACDNet网络模型。在Stanford2D3D、Matterport3D和Structured3D数据集上的实验表明,本论文提出的网络模型在多个数据集上的量化评估上均取得了当前的最佳结果,同时对应的视觉效果对比表明,该模型的结果在整体结构、重建细节等方面均超越了已有的方法。与失真感知卷积的对比实验以及自适应特征融合模块的消融实验表明,通道级的特征变换相比于针对不同纬度坐标进行卷积核变形而言在该任务上效果更佳,这为全景图像卷积特性的研究提供了新的思路。

  科研支撑

  本研究依托于中国科学院大学人工智能学院科研平台,受中国科学院战略性先导科技专项资助与国家自然科学基金支持,在三维视觉与分析实验室师生帮助下完成。导师肖俊教授在计算机视觉领域深耕多年,在计算机视觉与人工智能等领域具备坚实的科研经验,为本研究的开展提供了宝贵而有效的指导意见。三维视觉与分析实验室为本研究提供了丰富的硬件资源,包括一台桌面主机与两台各配备8张NVIDIA TITAN RTX显卡的服务器。

 AAAI会议介绍

  AAAI的全称是人工智能促进协会(Association for the Advancement of Artificial Intelligence),它是人工智能领域的主要学术组织之一。该组织成立于1979年,原名“美国人工智能协会(American Association for Artificial Intelligence)”,这一协会在早期由计算机科学和人工智能的创始人 Allen Newell, Marvin Minsky 和John McCarthy 等人首创,并于2007年更名为“人工智能促进协会(AAAI)”。现在在全球有超过6000名会员,汇集了全球最顶尖的人工智能领域专家学者,一直是人工智能界的研究风向标,在学术界久负盛名。

  AAAI是国际顶级学术会议——AAAI人工智能大会(AAAI Conference on Artificial Intelligence)的组织者,旨在推动智能思维与行为机制的科学理解及机器实现,并促进人工智能的科学研究和规范应用。同时,AAAI还旨在增加公众对人工智能的理解,改善人工智能从业者的教学和培训,并就当前人工智能发展和未来方向的重要性和潜力为研究计划者和资助者提供指导。AAAI主办的“AAAI人工智能会议”,被认为是人工智能领域的顶级会议之一。

文字/庄传青