首页 > 基于简化点云地图的语义边缘对齐的单目定位方法

基于简化点云地图的语义边缘对齐的单目定位方法

标题:Compact 3D Map-Based Monocular Localization Using Semantic  Edge Alignment

作者:Kejie Qiu, Shenzhou Chen, Jiahui Zhang, Rui Huang, Le Cui, Siyu Zhu, and Ping Tan

排版:点云PCL

来源:  arxiv 2021 

本文仅做学术分享,如有侵权,请联系删除。欢迎各位加入免费知识星球,获取PDF论文,欢迎转发朋友圈。内容如有错误欢迎评论留言,未经允许请勿转载!

公众号致力于分享点云处理,SLAM,三维视觉,高精地图相关的文章与技术,欢迎各位加入我们,一起每交流一起进步,有兴趣的可联系微信:920177957。本文来自点云PCL博主的分享,未经作者允许请勿转载,欢迎各位同学积极分享和交流。

摘要

精确的定位是导航、机器人、自动驾驶和增强现实(AR)等各种应用的基础。与增量式定位不同的是,全局定位不存在由误差积累引起的漂移,这在许多应用场景中都是需要的。除了在户外使用GPS外,3D地图也被广泛用作全局定位的替代方案。本文提出了一种基于低成本单目相机和惯性测量单元(IMU)的简化型三维地图全局定位系统。该地图由两类简化元素和多个语义标签组成,能很好地适应城市等各种环境。同时,利用语义边缘特征进行关键图像的地图配准,对环境中的遮挡和长期外观变化具有很强的鲁棒性。为了进一步提高定位性能,将关键语义边缘对齐问题描述为一个基于独立VIO(VisualInertial Odometry)模块预测初始姿态的优化问题。定位系统采用模块化设计,实时实现。通过实际实验结果与地面真实情况进行比较,评估了定位精度,并验证了长期定位性能。

介绍

视觉定位是对给定图像的位置和方向(即摄像机姿态)进行估计的问题。这个问题在自主导航中起着关键作用,例如,对于自动驾驶汽车[9]和同时定位和地图(SLAM)[30]。在许多三维计算机视觉算法中也会遇到这种情况,如运动结构(SfM)[36]、摄像机标定[9]和增强现实[25]、[29]

用于视觉定位的最新方法是基于结构的,即它们显式或隐式地使用三维模型来表示场景。显式方法通常采用通过SfM[20]、[25]、[33]、[40]、[46]构造的稀疏3D点云,允许它们将每个3D点与一个或多个局部图像描述子相关联。对于给定的图像,通过比较从图像中提取的局部特征的描述子和三维点描述子,建立一组二维-三维的对应关系。使用这些匹配,然后他们通过循环RANSAC[8]中应用n点姿势解算器[10]、[18]、[19]来估计相机姿势。相反,隐式方法[4]、[7]、[28]、[39]放弃了显式描述子匹配。相反,他们通过学习从图像块到三维场景点坐标的映射,直接学习2D-3D匹配函数。再次,将得到的2D-3D对应用于基于RANSAC的姿态估计。与显式方法相比,隐式方法可以获得更高的姿态精度[4],[7]。然而,它们目前还不能扩展到更大的户外场景[4],[37]。

大多数明确的基于结构的定位方法都集中在单目(单幅图像)情况下,例如智能手机和平板电脑上的增强现实[3]、[17]、[25],通过制定有效匹配[21]、[33]或缩放到更大或更复杂场景的策略[22]、[35]、[40]、[46]。然而,许多机器人应用,特别是自动驾驶汽车[9],[38],受益于使用多摄像机系统,覆盖整个360°视野(FoV)的机器人周围。研究还表明,覆盖更大视场的摄像机可以更精确地定位[2],并且多摄像机系统可以显著提高具有挑战性条件下的定位性能[34]。

文章贡献

现有的多摄像机定位研究主要集中在立体SLAM[13]、[23]、[31]、摄像机标定[12]、[13]和摄像机姿态估计[6]、[19]、[41]、[43]。后两种方法将多摄像机系统建模为广义摄像机[32],即具有多个投影中心的摄像机,以导出(最小)姿态估计解算器。然而,多摄像机定位的一个核心方面很少受到关注:使用多个图像会导致在特征匹配过程中需要考虑更多的特征,从而显著延长运行时间。

本文旨在通过研究多摄像机系统中高效的2D-3D匹配来填补这一空白。为此,我们做出了以下主要贡献:

1)提出了一种多摄像机系统的优先描述符匹配方案。我们的策略基于主动搜索[33],这是一种针对单目相机开发的高效优先级方案。我们证明了主动搜索的一种快速变体,它导致了单个图像的不稳定姿态估计,非常适合于多摄像机系统。

2) 我们将优先匹配与摄像机姿态估计相结合。与标准方案不同,标准方案在找到固定数量的匹配后终止搜索,我们的方法在找到足够多的几何一致匹配后立即终止。

3) 受几何异常值滤波方法的启发[40],[46],我们开发了一个有效的几何验证步骤,可用于整合潜在的姿态先验。这使得我们可以避免比较描述几何上不可信的匹配,这可以使我们的搜索更加有效和健壮。后两种贡献不仅限于多摄像机情况,而且也适用于单目场景。

4) 我们展示了如何将我们的方法与VIO方法相结合,使我们的系统能够在汽车上实时提供准确、无漂移的姿态估计

在城市环境中使用建议的精简地图格式进行地图压缩。使用两种类型的线段(线段和线框)保留关键地标的同时,显著减小了地图的大小。每种类型都可以标记为多个语义类别。

主要内容

提出的模块化定位系统包括语义分割模块、VIO模块、地标选择模块、特征提取模块和语义边缘对齐模块。本文将重点介绍最后三个模块。为了系统的完整性,还简要介绍了简化地图的生成过程。以城市环境定位为例,定位流程如图2所示。定位系统由全球定位系统(GPS)或其他视觉重定位方法等全局参考进行初始化。语义分割模块首先对采集到的图像进行语义标注,在不丧失通用性的前提下,将图像分割为两类语义区域(道路和非道路)。根据分割结果,在对图像进行进一步处理之前,先对图像中潜在的动态区域进行掩蔽,然后利用边缘检测算法从捕获的图像中提取语义边缘特征,并将分割出的语义边缘图像转化为相应的距离变换进行稠密处理边缘对齐。同时,根据最后一个摄像机姿态和VIO模块的里程计输入预测当前摄像机姿态。根据预测的摄像机姿态,从预先构建的简化地图中选择相应的地标进行特征对齐。最后,在一个优化框架内导出了全局的相机姿态。

提出了基于地图的定位系统的总体方案。整个定位系统由虚线框中显示的全局引用初始化,所有实线框表示实时运行的模块。在特征提取模块中,根据分割结果从输入图像中提取语义边缘特征,生成以距离变换表示的语义能量图(黑:低能;白:高能)。在地标选择模块中,根据独立的VIO模块提供的先验摄像机姿态选择用于特征对齐的地标。在边缘对齐模块中,对优化前后的标志点(色点)进行了重投影。

地图定义和生成

我们定义了两种类型的地标,即线段和线框,每种类型都可以附加多个语义标签。语义线段由一个语义标签和两个三维点表示,语义线框由一个语义标签和两个以上的三维点表示(矩形线框为四点):

在地图生成方面,可以从标准地图格式转换成简化的地标地图,也可以从使用各种传感器的多种地图算法的结果生成简化的地标。例如,如图3(a)所示,基于由稠密视觉映射构造的HD地图,可以使用分割算法在逆透视映射(IPM)图像中有效地标记检测到的道路。首先利用专用神经网络在图像中检测出非道路元素,然后利用映射结果得到的相应深度信息投影到全局坐标上,如图3(b)所示。在实际应用中,这两种检测结果都可以通过人工标注的方式进行细化,提高精度,并且不保留被植被遮挡的地标。图4显示就是显示的城市环境的简化地图。

图3 在IPM(bird's eye view)图像中检测路标,而在普通图像视图中检测非路标。

图4 城市环境的简化的地标地图

实验

采集设备

用于实验的生成简化地图是由安装在数据采集车上的高端设备(包括五个工业摄像机、一个高精度捷联惯导系统和一个车轮里程计)构建的密集点云地图生成的。另一方面,用于定位的传感器组包括MYNT眼睛照相机的左单目相机,其以20hz捕获640×400个图像,并且内部IMU以200Hz运行,下图所示

对摄像机的内参数和摄像机与IMU之间的外参数进行了预先标定。定位系统采用基于超点[10]的视觉重定位方法进行初始化。VINS Mono[23]用于单目VIO实现。使用DeepLabv3+[5]和exception[24]模型对城市环境进行语义分割,得到道路和非道路区域进行进一步的特征提取。整个定位系统在配备i7-8700kcpu和GeForce gtx1080ti的台式机上实时运行,详细的定时统计如表一所示。

定位评估

为了更好的呈现边缘地标对齐结果,我们将地标重新投影到合成距离变换上,该距离变换将所有语义层结合起来进行可视化。通常情况下,优化后的重投影标志(色点)位于低能量区域(距离变换的黑色区域)。也就是说,通过重投影图像可以直观地判断定位结果。

收集了三次总长620m的试验数据,并与地面实况进行了比较。用于定位的简化地图统计如表二所示, trial 1的地图具有相对较大的地标密度。重要的是,使用简化的地图表示法,地图尺寸显著减小(压缩因子=原始地图尺寸=紧凑地图尺寸),这有利于机载系统和大规模部署。

用RMSE计算的详细数值结果如表3所示。由于使用了语义边缘代替了语义对象,该方法的位置精度在0:29m以内,旋转精度在0.52度以内◦, 满足了自动驾驶对车道水平精度的要求。此外,如表4所示,我们将该算法与其他基于地图的算法进行了比较,结果表明该算法在相关工作中达到了最佳的性能水平。

总结

本文提出了一种基于自定义三维简化地图的单目视觉惯性测量全局定位系统。地图由两种类型的地标组成:线段和线框,每种类型都有多个语义标签。以城市环境为例,说明了方法论和评价方法。此外,由于定义的地图格式的通用性,它可以很容易地适应室内环境或任何人造环境使用特定的语义标签。此外,用于特征对齐的语义边缘特征对透视和光照变化具有很强的鲁棒性,在复杂外观变化的情况下能够实现长期定位。

更多详细内容和加入知识星球获取原文

资源

三维点云论文及相关应用分享

【点云论文速读】基于激光雷达的里程计及3D点云地图中的定位方法

3D目标检测:MV3D-Net

三维点云分割综述(上)

3D-MiniNet: 从点云中学习2D表示以实现快速有效的3D LIDAR语义分割(2020)

win下使用QT添加VTK插件实现点云可视化GUI

JSNet:3D点云的联合实例和语义分割

大场景三维点云的语义分割综述

PCL中outofcore模块---基于核外八叉树的大规模点云的显示

基于局部凹凸性进行目标分割

基于三维卷积神经网络的点云标记

点云的超体素(SuperVoxel)

基于超点图的大规模点云分割

更多文章可查看:点云学习历史文章大汇总

SLAM及AR相关分享

【开源方案共享】ORB-SLAM3开源啦!

【论文速读】AVP-SLAM:自动泊车系统中的语义SLAM

【点云论文速读】StructSLAM:结构化线特征SLAM

SLAM和AR综述

常用的3D深度相机

AR设备单目视觉惯导SLAM算法综述与评价

SLAM综述(4)激光与视觉融合SLAM

Kimera实时重建的语义SLAM系统

SLAM综述(3)-视觉与惯导,视觉与深度学习SLAM

易扩展的SLAM框架-OpenVSLAM

高翔:非结构化道路激光SLAM中的挑战

SLAM综述之Lidar SLAM

基于鱼眼相机的SLAM方法介绍

往期线上分享录播汇总

第一期B站录播之三维模型检索技术

第二期B站录播之深度学习在3D场景中的应用

第三期B站录播之CMake进阶学习

第四期B站录播之点云物体及六自由度姿态估计

第五期B站录播之点云深度学习语义分割拓展

第六期B站录播之Pointnetlk解读

[线上分享录播]点云配准概述及其在激光SLAM中的应用

[线上分享录播]cloudcompare插件开发

[线上分享录播]基于点云数据的 Mesh重建与处理

[线上分享录播]机器人力反馈遥操作技术及机器人视觉分享

[线上分享录播]地面点云配准与机载点云航带平差

如果你对本文感兴趣,请后台发送“知识星球”获取二维码,务必按照“姓名+学校/公司+研究方向”备注加入免费知识星球,免费下载pdf文档,和更多热爱分享的小伙伴一起交流吧!

以上内容如有错误请留言评论,欢迎指正交流。如有侵权,请联系删除

扫描二维码

                   关注我们

让我们一起分享一起学习吧!期待有想法,乐于分享的小伙伴加入免费星球注入爱分享的新鲜活力。分享的主题包含但不限于三维视觉,点云,高精地图,自动驾驶,以及机器人等相关的领域。

分享及合作方式:微信“920177957”(需要按要求备注) 联系邮箱:[email protected],欢迎企业来联系公众号展开合作。

点一下“在看”你会更好看耶

更多相关:

  • Android常用的三种定位方式有:基于GPS定位、基于基站地位、基于wifi定位。   1、基于GPS定位:  GPS定位需要GPS模块(硬件)的支持,没有GPS模块是无法进行GPS定位的。  GPS定位最大的优点就是其定位精确度高(一般误差在10m内),无网络也能用;缺点就是耗电高、定位慢、室内和地下室基本定位不到。   2、基于...

  • 点云PCL免费知识星球,点云论文速读。文章:A General Framework for Lifelong Localization and Mapping in Changing Environment作者:Min Zhao, Xin Guo, Le Song, Baoxing Qin, Xuesong Shi, Gim Hee...

  • 点云PCL免费知识星球,点云论文速读。文章:Coarse-to-fine Semantic Localization with HD Map for Autonomous Driving in Structural Scenes作者:Chengcheng Guo, Minjie Lin, Heyang Guo, Pengpeng L...

  • ​点云PCL免费知识星球,点云论文速读。 标题:ORB-SLAM3: An Accurate Open-Source Library for Visual, Visual-Inertial and Multi-Map SLAM 作者:Carlos Campos∗, Richard Elvira∗, Juan J. Gomez Ro...

  • 专为自动驾驶而构建的地图通常称之为高精地图(High Definition Maps),这些地图在厘米级别,一般具有极高的精度,阅读本文将了解有关高精地图的一些基本内容。你将了解到高精地图的定义,为什么自动驾驶需要高精地图,如何制作高精地图,高精地图如何存储,等等基本问题,对高精地图有着全面且基础的认识。 什么是高清地图? 高精地...

  • /*去除百度地图版权,去除百度地图右上角平移缩放控件的市县区文字*/ .anchorBL, .BMap_zlHolder {display: none;visibility: hidden;}...

  • 点云PCL免费知识星球,点云论文速读。标题:Probabilistic Semantic Mapping for Urban Autonomous Driving Applications作者:David Paz, Hengyuan Zhang, Qinru Li星球ID:particle欢迎各位加入免费知识星球,获取PDF论文,欢...

  • Kimera实时重建的语义SLAM系统 Kimera是C++实现的一个具有实时度量的语义SLAM系统,使用的传感器有相机与IMU惯导数据来构建环境语义标注的3D网格,Kinera支持ROS运行在CPU上的高效模块化的开源方案。包含了四个模块: 快速准确的视觉-惯导里程计VIO流水线(Kimera-VIO) 基于鲁棒位姿的图优化完整S...