论文原文：Point-GNN: Graph Neural Network for 3D Object Detection in a Point Cloud

论文背景

本文提出了一个 GNN 用于从 LiDAR 电云中发现对象，为此，作者在固定半径的近邻图中有效地编码了点云，使用 Point-GNN 预测每个点的对象的类别和形状。在 Point-GNN 中，本文提出了一种自动注册机制来减少平移差异，并且设计了一种盒合并和计分操作，以准确地组合来自多个顶点的检测。在KITTI基准上进行的实验表明，本文所提出的方法仅使用点云即可达到领先的准确性，甚至可以超越基于融合的算法，结果证明了使用图神经网络作为 3D 对象检测的新方法的潜力。

理解 3D 环境对于机器人感知十分重要，从点云中识别物体对于如自动驾驶之类的应用很有帮助。

CNN 依赖卷积操作识别物体，卷积操作虽然有效，但需要网格化的输入，但点云相较于图片来说更加稀疏并且在网格中分布不均。将点云放置在常规网格上会在网格单元中生成数量不均匀的点。在这样的网格上应用相同的卷积运算会导致拥挤的单元中潜在的信息丢失或空单元中的计算浪费。

最近的一些工作尝试使用无序点集作为输入，这样无需将点云转换为网格。但这样做通常需要迭代采样和分组来创建点集。在大的点云上重复分组和采样可能会在计算上造成高昂的成本，因此最近的一些 3D 检测方法通常采用混合的方法在不同阶段分别使用网格或集合表示，但这种混合的策略可能会同时受到这两种表示方法的限制。

本文提出用图的形式来表示点云，并设计了 Point-GNN 来进行目标检测。具体来说，将点云中的点作为图的顶点，并与周围一定半径内的其他点进行连边，从而允许特征在邻居之间流动。这样的图表示可以直接适应点云的结构而无需将其转化为其他的形式。GNN 在每层中会重新使用图中的边，以避免重复对点进行分组和采样。本文提出的 Point-GNN 将点云作为输入，输出每个顶点所属的对象类别和边界框，从而一次性检出多个物体，同时引入了一种自动注册机制，以根据特征自动对齐坐标，设计了框合并以及积分操作，以准确的组合来自多个顶点的检测结果。

本文的主要贡献有以下几个方面：

1. 提出了一种使用 GNN 的点云物体检测方法；

2. 使用带有自动注册机制的 Point-GNN 实现一次检测多个物体；

3. 在 KITTI benchmark 上达到了 SOTA 的 3D 对象检测精确度，并深入分析了每个组件的有效性。

论文模型

模型的整体结构如下图所示，分为三个组件：1)图构建；2)T次迭代的GNN；3)边界框合并和评分。

图构建

带自注册机制的GNN

Loss

边界框合并和评分

由于多个顶点可以位于同一对象上，因此神经网络可以输出同一对象的多个边界框。必须将这些边界框合并为一个，并分配一个置信度分数。非最大抑制（NMS）已被广泛用于此目的。通常的做法是选择具有最高分类分数的框，然后隐藏其他重叠的框。但是，分类分数并不总是反映定位质量。明显地，部分被遮挡的物体可能具有指示该物体的类型的强烈线索，但是缺乏足够的形状信息。标准 NMS 可能仅基于分类分数就选择了不准确的边界框。所以作者在合并的过程中同时考虑到了重叠边界框的中位数位置和大小：

实验

结论

本文提出了一种名为 Point-GNN 的图神经网络，用于从点云的图形表示中检测 3D 对象。通过图表示紧凑地对点云进行编码，而无需映射到网格或重复采样和分组。Point-GNN 在 KITTI benchmark 的 3D 和鸟瞰图对象检测方面均达到领先的精度。实验表明，提出的自动配准机制减少了过渡方差，并且在框合并和评分操作提高了检测精度。

更多 CVPR 2020 论文请访问：https://www.aminer.cn/conf/cvpr2020

往期回顾：

CAV 之往事可追忆

KDD2020 | 阿里、百度、腾讯、滴滴、华为、京东、联想 KDD2020公司论文大盘点

你关心的这些CCF A类会议 AMiner都替你备好了！

[关于转载]：本文为“AMiner”官网文章。转载本文请联系原作者获取授权，转载仅限全文转载并保留文章标题及内容，不得删改、添加内容绕开原创保护，且文章开头必须注明：转自“AMiner”官网。谢谢您的合作。