当前,不管是人工智能技术的研发以及行业应用的发展,“数据”都是一个不可或缺、位于重中之重的因素。作为人工智能基石的数据,发挥出越来越重要的作用,影响着人工智能场景应用的最终效果。现阶段,在各个行业细分应用场景的需求下,人工智能对数据的还原度、准确度提出了更高要求。
从细分结构来看,随着AI技术的不断成熟,更多的场景和行业开始嵌入使用AI技术,比如教育、法律、智能驾驶、银行金融等,这些AI行业应用场景逐渐趋于长尾和碎片化,产生了大量细分专业化的数据需求。对于人工智能应用来说,AI数据的精准度失之毫厘则差之千里,而在人工智能应用落地的过程中,AI数据精准度的差异会愈发的明显。在这里以国内头部AI数据采集标注服务商云测数据为例,看看高质量、场景化、精准化AI数据怎样帮助人工智能加速商业化、落地化、产业化进程。
以智能驾驶汽车领域为例,AI算法训练数据的“数量”与“质量”非常重要——现实交通场景复杂、安全威胁多,非常重视数据分析的效率和敏捷,尤其是国内路况的复杂性和相关智能应用丰富的使用场景,更需要高质、更精准的数据来进行算法训练。
目前云测数据为智能驾驶企业提供的提供的解决方案分三部分。一是基础数据集,二是定制化数据采集和标注服务,三是包括数据采集标注、数据管理的全方位数据工具链。
“三个部分对应不同层阶段的自动驾驶落地需求。”云测数据总经理贾宇航在接受媒体采访时介绍,“第一个阶段解决场景识别等基础问题的通用数据,例如车辆识别、车道线识别,这个阶段涉及多种传感器,需要大量布局;第二阶段基于选定的场景,根据深度神经网络引入特定的数据,云测数据场景实验室和标注基地有实力满足相应数据的精度和规模;第三阶段形成数据闭环,云测数据可提供一整套成熟工具帮助完成数据采集、标注、管理一系列流程,帮助企业完成自身迭代。”
据了解,云测数据采集服务覆盖智能驾驶主流应用场景,拥有DMS与ADAS场景搭建采集经验,比如支持驾驶员信息备采、多模及车载语音采集等众多类型。凭借高质量的数据交付实力,云测数据已和业内包括自主、合资车企,大型Tier1、Tier2,以及无人出租车、自动驾驶公司等众多企业,建立了持久良好的合作关系。
根据iResearch发布的《2020年中国AI基础数据服务行业发展报告》:一个新研发的计算机视觉算法需要上万张到数十万张不等的标注图片训练;一个用于智慧城市的算法应用,每年都有数十万张图片的稳定需求;语音方面,头部公司累计应用的标注数据集已达百万小时以上,每年需求仍以20%-30%的增速上升,不仅如此,随着IoT设备的普及,语音交互场景越来越丰富,每年都有更多的新增场景和新需求方出现,对于标注数据的需求也是逐步增长。
随着人工智能落地需求的场景和专业化程度的增加,AI训练数据本身的复杂度和种类也将不断提升,人工智能需要的将是定制化、专业化、精细化的AI场景训练数据产品服务,具有相关工具、资源、能力的训练数据服务商将发挥极大的竞争优势,成为发挥AI数据价值的“源泉之地”