监督学习需要大量的自动驾驶数据标注。可以完全手动标注,也可以机器自动标注,也可以与机器混合。这三种模式分别称为手动标注、自动标注和半自动标注。
自动驾驶数据标注:在自动驾驶中,感知系统对标识有很大的需求,尤其是对障碍物的感知。自动标注主要是基于不同传感器之间的相互标注。
自动驾驶数据标注:障碍物感知传感器主要有三种:激光雷达、相机和毫米波雷达。从自动标注数据流的角度来看,一般采用激光雷达和毫米波雷达对摄像头进行标注,因为感知系统需要向下游障碍物提供三维信息:三维位置和三维尺寸,糟糕的情况是障碍物在BEV上的尺寸和位置(缺乏高度方向)。
激光雷达输出的点云和检测模型输出的障碍物具有完整的三维信息,即中心点的位置和长宽高。
自动驾驶数据标注毫米波直接将障碍物信息输出到BEV上。有一辆2D纯电动汽车,位置有速度,但高度不足。该摄像机具有较高的分辨率和丰富的语义信息。二维视觉障碍检测也是一个非常流行和成熟的研究方向。为了使摄像机能够独立给出带有3D信息的障碍物结果,可以采用以下方法进行三维复原:
自动驾驶数据标注:纯二维检测结合一些先验几何假设。例如,假设盒子的下中心点是障碍物与地面的接触点,地面是平的,那么根据摄像机的外部参数来确定地面的高度,从而估计障碍物的三维位置。根据类别选取先验的长度、宽度和高度作为其大小。
该检测模型不仅可以预测障碍物的二维信息,还可以预测障碍物的角度、大小、深度、投影关键点等三维信息,然后通过一些几何约束和必要的先验信息恢复其三维信息。这样的方法有很多,预测对象也非常多样。也是三维视觉检测的一个热门研究方向。
伪激光雷达。首先估计摄像机图像的深度,得到密集的伪点云,然后利用点云模型进行障碍物检测。这种方法的关键和难点是准确的深度估计。将激光雷达点云投影到相机上,得到像素级的稀疏深度图。该深度图可用于训练纯视觉单眼深度估计模型。基于无监督学习的纯视觉单目深度估计是一个很有前途的研究方向。直观地说,结合激光雷达数据在理论上有助于模型的正确收敛。