传统的6d位姿估计fangfa1_基于改进的点对特征的6D位姿估计

首页 > 传统的6d位姿估计fangfa1_基于改进的点对特征的6D位姿估计

传统的6d位姿估计fangfa1_基于改进的点对特征的6D位姿估计

来源：公众号|计算机视觉工坊（系投稿）

作者：仲夏夜之星

「3D视觉工坊」技术交流群已经成立，目前大约有12000人，方向主要涉及3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、学术交流、求职交流、ORB-SLAM系列源码交流、深度估计等。工坊致力于干货输出，不做搬运工，为计算机视觉领域贡献自己的力量！欢迎大家一起交流成长~

添加小助手微信：CV_LAB，备注学校/公司+姓名+研究方向即可加入工坊一起学习进步。

QQ群「3D视觉研习社」，群号：574432628

论文题目：6D Pose Estimation using an Improved Method based on Point Pair Features

作者：Joel Vidal, Chyi-Yeu Lin

译者：仲夏夜之星

文献下载：在公众号「计算机视觉工坊」后台，回复「改进的点对特征」,即可获取论文。

摘要：点对特征是基于模型的6D位姿估计方法中最成功的一种，作为传统的局部和全局管道的一种高效、综合和折衷的替代方法。在过去的几年里，已经提出了几种不同的算法。Hinterstoisser等人提出的解决方案是一个主要贡献。在2017年ICCV第三届关于恢复6D物体姿态的国际研讨会上，本研究提出了一种适用于SIXD挑战数据集的PPF方法的变体，所有数据集的平均召回率为0.77，而对hinterstoisser、tless、tudlight、rutgers、tejani和doumanoglou数据集的总体召回率分别为0.82、0.67、0.85、0.37、0.97和0.96。

一引言

三维目标识别，特别是6D位姿估计问题是目标处理中的关键步骤。在过去的几十年里，3D数据和基于特征的方法已经在基于模型的方法获得广泛的声誉。一般来说，基于模型的方法分为两大类:全局方法和局部方法。全局方法使用一个全局描述描述整个对象或其部分。局部方法通过使用围绕特定点的局部描述符来描述对象。全局描述通常需要对目标对象或目标部分进行分割，而忽略了局部细节的区分性。这些特征使得全局方法在遮挡和高度杂乱的场景下不健壮。另一方面，由于传感器噪声的局部性质，局部方法通常对传感器噪声更敏感，并且它们倾向于在具有重复特征的对称对象或对象上表现出较低的性能。

在三维目标识别方法上，Drost等人[1]提出的点对特征方法已经被证明是最成功的方法之一，它具有很强的识别特性，是一种融合了局部和全局方法优点的折衷解决方案。在对该方法提出的几种扩展中，Hinterstoisser等人[2]分析了一些最薄弱的地方，并提出了一种扩展解决方案，在存在传感器噪声和背景杂波的情况下提供了一个显著的改善。本文提出了该方法的一种新的改进方法，并针对最近在ICCV 2017第三届恢复6D对象位姿国际研讨会上组织的2017年第六次挑战[3]上提出的具有挑战性的数据集测试了其性能。

二点对特征方法

本文提出的方法遵循Drost et al.[1]定义的点对特征(PPF)方法的基本结构，由两个阶段组成：全局建模和局部匹配。这种方法的主要思想是为每个场景点找到对应的模型点和它们的旋转角度，该方法可以从两个点之间的距离以及它们的法线和围绕法线的旋转角度来完成。这种对应关系是通过使用一个四维特征(图1)来定义的，该特征定义在每对两点及其法线之间，因此每个模型点都是由它自己创建的所有点对和所有其他模型点来定义的。

图1 点对特征

首先，在全局建模阶段，通过对数据进行下采样，对输入的模型数据进行预处理。然后，使用离散化的PPF作为索引，构建一个存储模型对的四维查找表(图2)。此表将提供对从场景点对获得的离散PPF特征所指向的每个单元的所有模型对应参考点及其旋转角的恒定访问。

图2 全局建模的样例

在局部匹配阶段，使用与建模部分相同的技术对输入数据进行预处理。对于每个给定的场景点，所有可能的PPF都被离散化，并用作查找表的索引，得到一组表示所有可能对应候选的模型点和旋转角的对。这些候选点中的每一个都在一个类似于Hough的投票方案中的表格上投下一票，其中每个值表示由模型点和旋转角度定义的假设转换(图3)。然后，提取峰值作为这个场景点对应的最佳候选。最后，对从场景点得到的所有假设进行聚类，并应用一组后处理步骤来提取最佳假设。

图3 局部匹配的样例

三实验

为了提高该方法在局部匹配阶段的运行时间性能，只使用kd树结构检查距离小于模型直径的点对。本文遵循[2]提出的思想，该系统避免对相同离散的PPF和旋转角度进行两次投票，并检查所有PPF索引邻居以考虑传感器噪声。本文不检查哈希表中的所有80个邻域，而是提出了一个更有效的解决方案，只投票给那些有很大机会受到噪声影响的邻域为了检查量化误差(图4)。

图4 在量化过程中考虑传感器噪声的邻域方案

假设聚类后，对投票最多的500个假设使用简化的依赖视图的重评分过程。在这个过程中，假设会根据它们与场景数据的契合程度重新排序。此外，为了提高评分的稳健性，对前200个评分进行ICP[4]精配准。最后，应用两个滤波后处理步骤来丢弃特殊的模糊情况，如平面和部分匹配曲面。第一步检查非一致点去除假设是部分拟合场景除非场景点没有足够的一致性。第二步检查相对于场景边缘对象轮廓的重叠率，以便过滤具有非匹配边界的拟合良好的对象。

四实验数据

2017年的第六次挑战[3]提出了一套数据集，用于评估单一对象的单一实例的6D本地化任务。上述数据集如表1所示，分别为:hinterstoisser、tless、tudlight、rutgers、tejani和doumanoglou。每个数据集包含一组3D对象模型和RGB-D测试图像。所提出的场景涵盖了广泛的情况与各种对象在不同的姿态和环境，包括多个实例，杂波和遮挡。这6个数据集共包含68个不同的对象模型(图5)和60475幅测试图像。请注意，rutgers、tejani和doumanoglou是精简版，doumanoglou的型号也包含在tejani中。

图5 数据集中使用的一些模型

表1 数据集模型和RGB-D测试图像

五实验结果

图6 所有数据集结果的样例

(a)hinterstoisser, (b) tless, (c) tudlight, (d) rutgers, (e) tejani and (f) doumanoglou.

六结论

本工作提出了PPF方法的一个新的改进方法，并根据最近发布的6D挑战2017引入的数据集测试其性能[3]包括68个对象模型和60475个测试图像。该方法引入了一种新的具有正常聚类和邻居对滤波的次采样步骤，此外，还引入了一种更快的kd树邻居搜索和更有效的解决方案传感器噪声的影响。最后，该方法使用几个后验证步骤重新评分、细化和过滤最终假设。所获得的结果使用VSD[5]度量，在大多数数据集上显示出高而一致的性能，平均召回率为0.77，但Rutgers数据集除外，该数据集显示出明显较低的速率。

参考文献

[1] B. Drost, M. Ulrich, N. Navab, and S. Ilic, “Model globally, match locally: Efficient and robust 3d object recognition,” In 2010 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), June 2010, pp. 998–1005.

[2] S. Hinterstoisser, V. Lepetit, N. Rajkumar, and K. Konolige, “Going Further with Point Pair Features,” In Proceedings of the European Conference on Computer Vision (ECCV), 2016.

[3] SIXD Challenge 2017. http://cmp.felk.cvut.cz/ sixd/challenge_2017/. Accessed: 2017-9-28.

[4] S. Rusinkiewicz and M. Levoy, “Efficient variants of the ICP algorithm,” In Proceedings Third International Conference on 3-D Digital Imaging and Modeling, 2001, pp. 145–152.

[5] T. Hodan, J. Matas, and S. Obdrzalek, “On Evaluation of 6D Object Pose Estimation,” In ECCV Workshop, 2016.

本文仅做学术分享，如有侵权，请联系删文。