【三维目标检测】3DSSD（一）_Coding的叶子_三维目标检测

网络投稿 02-07 3698

????????3DSSD三维目标检测模型发表在CVPR2020《3DSSD: Point-based 3D Single Stage Object Detector》。目前，基于体素的 3D 单级检测器已经有很多种，而基于点的单级检测方法仍处于探索阶段。3DSSD是一种轻量级且有效的基于点的 3D 单级目标检测器，在精度和效率之间取得了良好的平衡。所有现有的基于点的方法中必不可少的所有上采样层和refine操作都被放弃了，以减少大量的计算成本。3DSSD在下采样过程中提出了一种新的融合采样策略，以使对较少代表性点的检测变得可行。3DSSD大大优于现有的基于体素的单阶段方法，并且具有与两阶段基于点的方法相当的性能，推理速度超过 25 FPS，比类似的目标检测方法要快 2 倍左右。

1 源码与输入数据

? ? ? ? 源码采用的是mmdetection3d框架中的second模型。mmdetection3d安装和调试验证可参考本博客之前的专栏，里面有详细介绍。

????????数据采用的是kitti，为了快速进行算法调试、训练、评估和验证，以及快速下载，我制作了一个mini kitti数据集，数据集的文件目录结构与完整KITTI数据集保持一致。其中，小型的KITTI数据集，即 mini kitti保存了20个训练样本和5个测试样本。下载地址为：minikitti数据集-深度学习文档类资源-CSDN下载。

? ? ? ? 下载的数据包含4个部分，即激光雷达数据velodyne、图像数据image_2、校准数据calib和标注数据label_2。如果需要对应的ImageSets，请下载：train_val_testforminikitti-深度学习文档类资源-CSDN下载，将下载的文件夹重名为ImageSets即可。

????????关于KITTI各个部分的介绍请分别参考以下内容：

KITTI数据集简介（一） — 激光雷达数据_Coding的叶子的博客-CSDN博客_雷达数据集

KITTI数据集简介（二） — 标注数据label_2_Coding的叶子的博客-CSDN博客_kitti数据集标注

KITTI数据集简介（三） — 图像数据image_2_Coding的叶子的博客-CSDN博客

KITTI数据集简介（四） — 图像数据calib_Coding的叶子的博客-CSDN博客

? ? ? ? 数据预处理部分可以参考Voxelnet的数据处理方式加以理解：【三维目标检测】VoxelNet（二）：数据处理_Coding的叶子的博客-CSDN博客。

2?mmdetection3d kitti数据处理

? ? ? ? mmdetection3d kitti （持续更新）_Coding的叶子的博客-CSDN博客

python tools/create_data.py kitti --root-path ./data/kitti --out-dir ./data/kitti --extra-tag kitti 3 3DSSD简介

? ? ? ? 3DSSD模型相关的神经网络模型主要包括SSD（二维目标检测）、PointNet、PointNet++和VoteNet等。在这几个模型的基础上，3DSSD网络结构可以很好地被理解。其中，PointNet和PointNet++在本专栏的之前博文里均有详细介绍，VoteNet部分后续在进行补充。

? ? ? ? 3DSSD网络模型总体结构如下图所示，主要包含backbone、Candidate Generation Layer和Prediction Head三个部分。

? ? ? ? （1）backbone：backbone主要是来源于PointNet++ MSG的SA层，具体可参考【三维目标分类】PointNet++详解（二）_Coding的叶子的博客-CSDN博客_pointnet++目标识别和【三维深度学习】PointNet++（三）：多尺度分组MSG详解_Coding的叶子的博客-CSDN博客_多尺度组合分组。不同之处在于，PointNet主要采用了距离最远点采样D-FPS，而3DSSD的backbone中增加了特征最远点采样F-FPS。

? ? ? ? （2）Candidate Generation Layer：这一部分主要是基于VoteNet得到投票中心点和特征。核心思想是，利用Backbone等网络提取关键点的特征，并用其中的一部分来进行投票，投票结果进一步用PointNet++ MSG SA层进行特征提取，最后利用该特征对检测框的种类和位置进行预测。

? ? ? ? （3）Prediction Head：利用（2）中提取的特征对检测框的种类和位置进行预测。在下一节代码示例分析中，类别只有汽车Car一个类别。检测框位置包括30个维度，即3个中心点坐标偏移、3个维度的尺寸大小、12个方向类别（每个类别2个参数）。

4 模型结构、推理过程

? ? ? ? 模型详细结构及推理过程请参考下一篇博客：【三维目标检测】3DSSD（二）_Coding的叶子的博客-CSDN博客。

5?【python三维深度学习】python三维点云从基础到深度学习_Coding的叶子的博客-CSDN博客_三维点云深度学习

更多三维、二维感知算法和金融量化分析算法请关注“乐乐感知学堂”微信公众号，并将持续进行更新。