论文解读 | 新发现编码器PointPillars用于点云检测物体，更加高效且精准

发布时间：2023-08-30 17:23:56 浏览次数：147

技术背景

在过去的几年中，深度学习技术已经在图像领域的物体检测中取得了显著的进展，诸如目标检测算法（如Faster R-CNN、YOLO和SSD）在图像中能够高效准确地检测出物体。然而，当涉及到点云数据（由激光雷达等传感器获取的三维数据）时，物体检测仍然面临许多挑战。

点云数据与传统的图像数据不同，它们是由大量的离散点组成，每个点都包含了物体在三维空间中的位置信息。因此，在点云数据中进行物体检测需要解决一些独特的问题。例如，点云数据的密度可能会因物体距离传感器的远近而变化，噪声和遮挡也可能影响检测结果。此外，点云数据通常需要进行预处理，以便在深度学习模型中使用。

为了克服这些挑战，该文提出了一种新的点云数据编码器，名为PointPillars。PointPillars可以实现端到端的训练，从而直接从原始点云数据中学习物体检测任务。这种编码器可以将点云数据转换为一种表示形式，使其适用于深度学习模型的输入。PointPillars的设计考虑了点云数据的稀疏性，以及在三维空间中的分布情况。

值得注意的是，该方法在KITTI挑战赛中取得了最好的检测性能。KITTI挑战赛是一个关注自动驾驶领域的竞赛，旨在评估不同算法在真实场景中检测、定位和跟踪车辆等物体的能力。因此，PointPillars 的成功表明了它在点云数据中进行物体检测方面的有效性和优越性。

论文创新点

本文的创新点是提出了一种新的编码器，称为PointPillars，它可以对点云数据进行端到端的训练，并且可以在只使用激光雷达数据的情况下实现比现有方法更高的检测性能。PointPillars使用PointNets对点云数据进行编码，将点云数据组织成垂直柱状结构，然后使用2D卷积神经网络进行检测。与现有方法相比，PointPillars具有更快的运行速度和更高的检测精度。此外，PointPillars不需要手动调整垂直方向的分箱，因为它是在柱状结构上进行操作，而不是在体素上进行操作。

算法介绍

涉及本文中的算法部分，它主要分为两个关键组件：编码器和检测器。

编码器：编码器利用PointNets对点云数据进行处理，以创建一种垂直柱状结构。具体而言，编码器将点云数据划分为垂直方向的柱状体素，每个体素包含一定数量的点。随后，PointNets被用于对每个柱状体素进行编码，产生一个固定长度的特征向量。这些特征向量被整合成一个矩阵，将其作为检测器的输入。

检测器：检测器利用2D卷积神经网络对经编码的点云数据进行检测。具体而言，检测器采用了Single Shot Detector (SSD)架构进行物体检测。SSD架构使用一组预定义的锚点框来感知物体，每个锚点框代表特定的物体尺寸和宽高比。检测器通过卷积神经网络对每个锚点框进行分类和回归，从而确定每个框是否包含物体，同时确定物体的位置和尺寸。

总体来看，PointPillars算法的主要优势在于，它能够仅利用激光雷达数据实现比现有方法更出色的检测性能。此外，该算法的执行速度更快，检测精度更高。值得一提的是，PointPillars不需要手动调整垂直方向的箱体划分，因为其操作是在柱状结构上进行，而非体素级别上进行调整。这使得算法更加自适应。

实验论述

本文的实验部分主要使用了KITTI object detection benchmark dataset进行实验。该数据集包含了激光雷达点云数据和图像数据，用于物体检测和跟踪任务。本文只使用激光雷达点云数据进行训练和测试，并与使用激光雷达和图像数据的融合方法进行比较。

实验设置：

本文使用Adam优化器对损失函数进行优化，初始学习率为2e-4，每15个epoch衰减0.8倍。训练160个epoch，batch size为2，验证集和测试集的batch size分别为4。为了进行实验研究，本文将官方训练集分为3712个训练样本和3769个验证样本，测试集包含784个样本。本文使用训练集进行模型训练，使用验证集进行模型选择和调整，最终在测试集上进行评估。

实验结果：

本文的实验结果表明，PointPillars算法在只使用激光雷达数据的情况下，可以实现比现有方法更高的检测性能。在KITTI 3D和鸟瞰图检测基准测试中，PointPillars算法的检测性能显著优于现有方法，即使与使用激光雷达和图像数据的融合方法进行比较，也具有更高的检测精度。此外，PointPillars算法的运行速度也比现有方法更快，可以在62Hz的速度下运行，比现有方法快2-4倍。在更快的版本下，PointPillars算法可以在105Hz的速度下与现有方法匹配。

结论与分享

PointPillars是一种专注于点云数据的物体检测算法，它在仅利用激光雷达数据的情况下，实现了优越于现有方法的检测性能。该算法不仅具备更快的运行速度和更高的检测精度，还在KITTI 3D目标检测和鸟瞰图检测基准测试中展现出显著的优势。即使与使用激光雷达和图像数据融合的方法进行对比，PointPillars算法依然表现出更高的检测准确性。

值得注意的是，PointPillars算法不仅实现了更快的运行速度，达到每秒62帧的速率，比现有方法提速2-4倍，而且在更快的变体下，甚至可以达到每秒105帧的速率，与当前方法相媲美。因此，PointPillars算法在点云数据物体检测领域展现出了巨大的潜力。这一研究为点云数据的物体检测提供了一个有前途的解决方案。

END

作者 | 芊牛花

排版 | 春花

审核 | 柒柒

若您对该文章内容有任何疑问，请于我们联系，将及时回应。如果想要了解更多的前沿资讯，记得点赞关注哦~

关于BFT白芙堂机器人

BFT（白芙堂）机器人是智能机器人一站式服务平台，能为客户提供机器人选型、培训、解决方案、在线采购、本地化定制等高性价比的一站式服务。平台产品涵盖协作机器人、工业机器人、移动机器人、SCARA机器人、服务机器人、机器人夹爪、三维机器视觉设备、3D工业相机等十余种品类，实现机器人产业链产品全覆盖，并广泛应用于工业制造、实验室自动化、智慧零售、教育科研等行业。平台已与国内外知名机器人企业达成战略合作，并拥有专业的工程师团队，能为客户提供算法及系统定制、职校教学、科研实验室平台搭建、机器人展厅定制等服务，支持一对一技术支持和二次开发。

上一篇：对话谷歌首席技术官肖恩，搜索引擎的里程碑，来看看搜索引擎界的大哥Algolia的“快、准、狠”突围关键 2023-08-30 16:10:13

下一篇：科技政策 | 浙江省科学技术厅关于组织申报2024年度“尖兵”“领雁”研发攻关计划第一批项目的通知 2023-08-30 18:09:04

BFT白芙堂机器人平台版权和免责声明

1. 经本网站注明“来源：BFT白芙堂平台”的所有文章、视频、图片、音频等相关稿件，版权均归属于BFT白芙堂平台（www.bft-robot.com）独家所有。如媒体、网站等需对文章进行转载请联系17788781937，同时转载需注明“来源：BFT白芙堂平台”，未经擅自转载者本网站将对其追究法律责任。
2. 本网站的部分稿件来源于互联网，版权归属于原版权人。如该类稿件需转载，请保留原版权人信息，对于一切违反原版权人禁止的行为均由转载者自行负责。
3. 本网站的一切稿件均符合中国法律、国际公约的规定，遵守网络服务协议、规定、程序，符合公序良俗，任何他人不得将本网站用作非法途径或非正当用途。
4. 以上声明内容的最终解释权归本网站所有。