马斯克刚骂了激光雷达,这篇用纯视觉代替激光雷达的名校论文「力挺」了他

  • 日期:07-12
  • 点击:(1796)

日本成人电影

昨天,第N名公众在解决激光雷达,马斯克,再次让自动驾驶仪讨论无人驾驶车辆的不同传感器应用。

事实上,如果我们站在马斯克的观点,我们就不难理解他对激光雷达的“仇恨”。

毕竟,特斯拉是一家向普通消费者销售汽车的公司,而不是销售自动驾驶技术和解决方案的公司。

至少3年内,无论是成本,技术可靠性,安全性,美观性,还是用户对自动驾驶的信任和品味,大多数汽车制造商的生产型号都不会考虑激光雷达。类别。

当然,根据马斯克经常谈到的经典表演,他可能需要几年时间站起来反驳自己的观点。

事实上,关于自动驾驶仪是否应该使用激光雷达这一问题一直存在着长期争论。已经衍生出“激光雷达”和“纯计算机视觉主义”。

目前,激光雷达和公众广泛接受的观点是,鉴于纯视觉算法缺乏数据形式和精度,L3级以上的自动驾驶轿车必须使用激光雷达。

当然,从Google Waymo,General Cruise,到百度Apollo和国内Pony.ai,Wenyuan Zhixing等公司宣称是L4级自动驾驶乘用车解决方案,屋顶上的激光雷达一直非常关注 - 醒目。

“计算机视觉”的重要部分是自动驾驶技术解决方案的初创公司,但解决方案有多高。事实上,没有明确的结论。

通常,“昂贵的成本”和“技术能力”是许多汽车公司和计算机视觉技术公司反对使用激光雷达的主要原因。

例如,作为一家专注于相机解决方案的技术创业公司,AutoX在2017年的“展示首秀”是在普通公路的车道上运行仅有7台摄像机的林肯MKZ(参数图片)。虽然后来受到了激光雷达的“反击”,但其创始人兼首席执行官肖建雄一直坚持以相机为基础的传感器解决方案,

此外,一些高精度地图初创公司还强调使用低成本相机解决方案来收集基于成本的高精度数据。

总的来说,到目前为止,自动驾驶仪中最主流的观点是“应该有一个,一个不能少”,但不难看出汽车厂的业务,对于计算机视觉公司来说,暂时搁置激光雷达这是一个好主意;

另一方面,对于计算机视觉工程师来说,要在高级自动驾驶仪解决方案中摆脱激光雷达,有必要不断研究和验证纯视觉技术解决方案代替激光雷达的可行性。

因此,当每个人都在观看“Muske Lidar”时,我们希望从机器核心的角度来看,看看它是否可以在技术上“验证”这种看似不可靠的观点。

巧合的是,我们在康奈尔大学找到了一篇技术论文,其中王燕和赵伟伦都是中国人。本文提出了一种新方法来缩小纯视觉技术架构与激光雷达之间的性能差距。

本文提出的方法改变了立体摄像机目标检测系统的三维信息呈现形式,甚至称其为伪激光数据(伪LiDAR)。

研究人员在挡风玻璃的两侧使用了相对便宜的相机。采用新方法后,摄像机在目标探测中的性能接近于激光雷达,其成本只是后者的一小部分。研究人员发现,在鸟瞰视图而不是前视图中分析摄像机拍摄的图像可以将目标探测精度提高一倍,使立体摄像机成为激光雷达的可行替代方案,其成本很高低于后者。

研究课题

可靠和强大的3D目标检测是自动驾驶系统的基本要求。为避免与行人,骑车人和汽车发生碰撞,自动驾驶汽车必须首先检测到它们。

现有算法严重依赖于激光雷达(LiDAR),它可以在周围环境中提供精确的3D点云。尽管激光雷达具有高精度,但由于以下原因,自动驾驶仪行业迫切需要激光雷达的替代品:

首先,激光雷达是非常昂贵的,为自动驾驶仪硬件增加了很多钱;

其次,过度依赖单个传感器会带来安全风险,并且在传感器发生故障时使用备用传感器是一个很好的选择。自然选择是来自立体相机或单目相机的图像。光学相机具有成本效益(比激光雷达便宜多个数量级)并且可以以高帧速率操作,提供仅具有64或128个稀疏旋转激光束的密集深度图。

最近的一些研究已经探索了在3D目标检测中使用单目相机和立体深度(视差)估计[19,13,32]。然而,目前的主要结果仍然是激光雷达方法的补充。

例如,KITTI基准测试[17]的顶级算法使用传感器融合将汽车的3D平均精度(AP)从激光雷达的66%提高到激光雷达+单眼图像的73%。在仅使用图像的算法中,当前最优算法的AP仅为10%[30]。

对于后者性能不佳的直观且流行的解释是基于图像的深度估计不太准确。

与激光雷达相比,立体深度估计中的误差随着深度增加呈现二阶增加。然而,激光雷达产生的3D点云与立体深度估计器的视觉比较表明,两种数据模态之间存在高质量匹配,即使对于远距离物体也是如此(见图1)。

03d4bfb4799c4644a4f782089bdb4022.jpeg

图1:来自视觉深度估计的伪LiDAR信号。左上角:KITTI街景图像,其中汽车周围的红色边界框由激光雷达获取,绿色边界框通过伪激光获得。左下:估计的差异图。右:伪激光(蓝色)与激光雷达(黄色)。伪激光点与激光雷达点很好地对准。

溶液

本文提供了另一种解释。研究人员认为,立体相机和激光雷达之间性能差距的主要原因不是深度精度的差异,而是立体相机上运行的ConvNet 3D目标检测系统的3D信息。说过。

具体地,激光雷达信号通常表示为3D点云或“鸟瞰”视图并相应地进行处理。在这两种情况下,目标的形状和大小不随深度而变化。

基于图像的深度估计主要针对每个像素,并且通常表示为附加图像通道,使得远处物体小且难以检测。更糟糕的是,像素邻居的这种表示在3D空间的更远区域中收集点,这使得在这些信道上执行2D卷积的卷积网络更难以推理并准确地定位在3D空间中。宾语。

为了测试这个断言,该研究介绍了一种用于立体摄像机3D目标检测的两步法。首先,将来自立体摄像机或单目摄像机的估计深度图转换为3D点云,其是模拟激光雷达信号的伪激光;然后直接使用现有的基于激光雷达的3D目标检测过程[23,16]。伪激光雷达表示训练。

通过改变伪激光的3D深度表示,基于图像的3D目标检测算法实现了前所未有的精度提高率。具体而言,KITTI基准测试中具有0.7交叉比(IoU)的汽车实例在验证集上实现了37.9%的3D AP,比先前的最佳图像方法提高了2倍。这使立体相机和基于激光雷达的系统之间的差距缩小了一半。

6a24b6586d9143c9910946ff1d2ca7b2.jpeg

图2:用于3D目标检测的两步管道。给定立体或单眼摄像机图像,研究人员首先预测深度图,然后将其转换为激光雷达坐标系中的3D点云。然后像激光雷达一样进行处理,因此可以在其上使用任何基于激光雷达的3D检测算法。

研究人员评估了立体深度估计和3D目标检测算法的各种组合,并获得了非常一致的结果。这表明性能改进是由于使用伪激光表示,其较少依赖于3D目标检测架构的创新或深度估计技术。

总之,本文有以下贡献:

首先,实验表明,基于立体相机和基于激光雷达的3D目标检测技术之间的性能差异不是由于估计深度的质量,而是由于表示。

其次,研究人员提出了一种新的3D目标检测估计深度表示伪激光,它将先前的最佳性能提高了2倍,达到了当前的最佳水平。

该研究的结果表明,可以在自动驾驶车辆中使用立体相机,这可以大大降低成本并提高安全性。

论文:视觉深度估计中的伪LiDAR:弥合自动驾驶的三维物体检测中的差距

ee620d6ad252488086317f3bf272f63b.jpeg

链接到论文:

摘要:三维目标检测是自动驾驶的重要任务。如果通过精确但昂贵的激光雷达获得3D输入数据,则当前技术可以实现高度准确的检测率。基于较便宜的单眼或立体相机图像数据的方法目前正在实现较低的准确度,这通常归因于基于图像的深度估计技术。

然而,在本文中,研究人员认为数据表示(而不是其质量)是造成这种差距的主要原因。研究人员考虑了卷积神经网络的内部工作原理,并提出将基于图像的深度图转换为伪激光表示。本质上是一个模拟激光雷达信号。通过这种表示,我们可以应用基于当前激光雷达的各种不同的检测算法。

在流行的KITTI基准测试中,所提出的方法在基于图像的性能方面取得了令人印象深刻的改进,超越了当前的最佳实践,并且目标检测精度达到目前最佳的30%范围内的22%。增加到74%。在提交论文时,所提出的算法基于立体图像方法达到了KITTI 3D目标检测等级中的当前最高水平。

实验

研究人员使用不同的深度估计和目标检测算法,评估了在不同设置下使用/不使用伪激光进行3D目标检测的结果(见下表)。伪激光器获得的结果以蓝色显示,真实激光雷达的结果以灰色显示。

6a3f387b15474a28b96c61df4af9fb2b.jpeg

表1:3D目标测试结果。该表显示了汽车分类的AP_BEV/AP_3D百分比,与鸟瞰图相对应的平均精度和3D目标帧检测。

698157a27c114a3d890082b56110f51c.jpeg

表4:行人和骑车人类别的3D目标测试结果。研究人员报告了AP_BEV/AP_3D对于IoU=0.5(标准度量)并且使用F-POINTNET算法将PSMNET(蓝色)估计的伪激光与激光雷达(灰色)进行了比较。

25cef0e6aab842e68a526103f9b047de.jpeg

图4:定性比较。研究人员使用AVOD算法来比较激光雷达,伪激光和前视图(立体声)。红框是Groundtruth,绿框是预测框;伪激光雷达图像(底行)中的观察者向最左侧看。前视图方法(右)甚至错误地计算了附近目标的深度并完全忽略了远处目标。

来源: arxiv,ciencedaily,机器的核心等等。

参考链接: