一、导读
对于数据的存储落盘来说,占据绝大部分存储空间的数据来自于相机传感器,特别是当前的数采需求可能需要6-8个800M像素的相机采集,进行RAW数据落盘。举个例子,在以非RAW格式,比如YUV422 8bits,在3840×2160(800M)分辨率下以30fps进行拍摄:3840 × 2160 × 16 / 8 ×30 / 1024^2 = 475MB/s,近500MB/s的带宽需求,在搭载多个800M相机以及其他传感器的情况下,一辆数采车可以轻易达到5TB/小时的落盘需求。
因此能够有效降低数采的存储成本,减少数据挖掘的花费至关重要。
二、应对方法
1、时间同步策略
通过良好时间同步策略,可以避免产生大量无效数据。当然这里的无效也是相对而言的,原因之一是通过后期的手动调整进行不同模态的数据的时间对齐是一种非常耗时的工作。在数据采集的过程中,通过触发式的机械连接和软件时间同步,让不同模态的传感器数据打上高精度的时间戳,一方面便于数据管理,减少无效数据落盘,另一方面充分有利于算法训练。
2、数据压缩
从数据压缩的角度来看,在采集过程中可以采用H.264或者H.265进行视频压缩,比如在H.265压缩的情况下,取决于采集数据的复杂性、分辨率、帧率和编码器的设置,可以实现50%左右的压缩比率,1GB压缩成500MB,当然这个比率会受到很多参数影响,因此因实际情况而有所不同。
3、专注所需场景
目前,随着传感器技术的和算法的进步,自动驾驶算法/系统已经能够应对99%的场景,这是因为各个算法已经获得了PB甚至EB级别的数据,覆盖了生活中的绝大多数场景。为了去应对剩下1%的边缘场景,实际上,让数采车直接进行上路进行数据采集,将会有大量的重复数据,并且需要数据团队需要花费相当多的时间在其中寻找到目标数据。所以,优化数据的采集模式,让数采专注于算法所需场景的数据,是当下能够有效减少数据存储体积的方式。
三、康谋方案
1、康谋HEEX
针对这方面,康谋HEEX智能数据管理平台采用了基于事件和预设触发器的数据采集解决方案,能够使得数据团队直接在边缘设备或是云端直接提取与所需事件相关的数据。我们称之为“智能数据”,即最相关的数据,并且能够无缝分发给开发团队,优化数据存储成本和资源。
2、HEEX的工作流
康谋HEEX的工作流主要分为以下5个部分:
- 定义所需的“智能数据”。即设置所需采集的数据的条件,比如“在有行人通过时,制动加速度超过5m/s^2”场景的数据;
- 定义触发器。将设置的条件通过康谋HEEX SDK自动部署到数据采集系统上;
- 部署代理。即设置监测数据、评估条件并最终记录事件的相关数据到指定的系统中;
- 提取和上传数据。通过系统的网关和康谋HEEX API,可以方便上传到云端或下载到本地;
- 数据分发。同样通过康谋HEEX API可以根据用户的需求自动处理不同模态的数据,并将其分发的对应的开发团队。并随着场景的变化和更新,可以进行更加细化和多样化的条件设置,以更好的定位只能数据。
在这个过程中,落盘的只有目标场景的数据,而并非所有数采车经过的场景,因此能够有效降低数采的存储成本,减少数据挖掘的花费。
同时,康谋HEEX也将会根据需求,集成到康谋高精度的时间同步数据采集方案中,同时提供数据压缩和智能数据管理服务。
我是分享自动驾驶技术的康谋,关注我,了解更多信息!