6d姿态估计综述

6d姿态估计综述

参考资料: 《Vision-based Robotic Grasping From Object Localization, Object Pose Estimation to Grasp Estimation for Parallel Grippers: A Review》

1.简介

1.1 6D位姿的含义

6D是指6个自由度,代表了3个自由度的位移(Translation),以及3个自由度的空间旋转 (Rotation),合起来就叫位姿 (Pose)。位姿是一个相对的概念,指的是两个坐标系之间的位移和旋转变换。

对于物体的6D位姿估计,通常用物体从世界坐标系到相机坐标系的RT变换:

T

c

=

R

c

m

T

m

+

t

c

m

T_c = R_{cm}*T_m+t_{cm}

Tc​=Rcm​∗Tm​+tcm​其中,

T

m

T_m

Tm​是物体再世界坐标系下的坐标,

T

c

T_c

Tc​是相机坐标系;

R

c

m

R_{cm}

Rcm​是代表由世界坐标系到相机坐标系的旋转,

t

c

m

t_{cm}

tcm​代表位移。

1.2 方法划分

1.2.1 基于点对应的方法-2D

显示地寻找当前图像与模板图像之间的特征点对应。传统的特征包括SIFT、SURF、OBR等,深度特征例如LIFT、GLAMpoints、LCD等

隐式地回归3D坐标点在2D上的投影,代表方法BB8、YOLO6D、Segment-driven、DPOD、EPOS等。

1.2.2 基于点对应的方法-3D

PVNet3D、6-PACK

1.2.3 基于模板的方法-2D

1.2.4 基于模板的方法-3D

2. 常用数据集和评价指标

2.1 LineMod

2.2 YCB-Video

2.3 评价指标

Average Distance of Model Points(ADD)

e

A

D

D

=

avg

x

M

(

R

x

+

T

)

(

R

^

x

+

T

^

)

.

e_{A D D}=\operatorname{avg}_{x \in M}\|(R x+T)-(\hat{R} x+\hat{T})\| .

eADD​=avgx∈M​∥(Rx+T)−(R^x+T^)∥.其中

R

R

R 和

T

T

T 是真实的旋转和平移,

R

^

\hat{R}

R^ 和

T

^

\hat{T}

T^ 是预测的旋转和平移,

a

v

g

avg

avg是指计算均值。

ADD-S 给定真实的物姿

[

R

T

]

[R|T]

[R∣T]和预测的姿态

[

R

^

T

^

]

[\hat{R}|\hat{T}]

[R^∣T^],ADD-S是指:从3D模型的每一个预测点到最近的真实点距离,然后求平均(对所有点)。

在LineMod数据集中,ADD用于评估非对称物体,ADD-S用于对称物体,通常设置的阈值为模型直径的10%。 在YCB-Video数据集中,用ADD-S小于2cm的物体所占的比例来评估。在不同阈值下绘制ADD-S曲线,计算曲线下方的面积作为AUC值。

相关文章