麻省理工学院(MIT)的研究人员公布了首个开源模拟引擎,它能为可部署的自动驾驶汽车的培训和测试构建现实环境。由于被证明是安全尝试危险驾驶场景的富有成效的试验台,超现实的虚拟世界已被誉为自动驾驶汽车(AV)的最佳驾驶学校。
特斯拉、Waymo和其他自动驾驶公司都在很大程度上依靠数据来启用昂贵的专有逼真的模拟器,这是因为测试和收集细微的数据通常不是最容易或最理想的再现。
考虑到这一点,来自MIT计算机科学和人工智能实验室(CSAIL)的科学家创建了“VISTA 2.0”--这是一个数据驱动的模拟引擎,车辆可以在现实世界中学习驾驶并从几乎崩溃的情况下恢复。更重要的是,所有的代码正在向公众开放源代码。
“今天,只有公司拥有像VISTA 2.0这种类型的模拟环境和能力的软件,而且这种软件是专有的。随着这个版本的发布,研究界将有机会获得一个强大的新工具从而以加速自动驾驶的自适应稳健控制的研究和开发,”关于这项研究的论文的资深作者、MIT教授和CSAIL主任Daniela Rus说道。
VISTA 2.0建立在该团队以往开发的模型VISTA的基础上,跟现有AV模拟器有根本的不同,因为它是数据驱动的。这意味着它是根据真实世界的数据建立和逼真地渲染的--从而能直接转移到现实中。虽然最初的迭代只支持单车跟车和一个摄像头传感器,但要实现高保真数据驱动的模拟需要重新思考如何合成不同的传感器和行为互动的基础。
进入VISTA 2.0:一个数据驱动的系统,可以大规模地模拟复杂的传感器类型和大规模的互动场景和交叉口。通过使用比以前的模型少得多的数据,该团队能训练自主车辆,而这些车辆可能比那些在大量真实世界数据上训练的车辆要强大得多。
CSAIL博士生Alexander Amini说道:“这是数据驱动的自主车辆模拟能力的巨大飞跃,也是处理更大驾驶复杂性的规模和能力的增加。VISTA 2.0展示了模拟传感器数据的能力,远远超过了二维RGB相机,还包括具有数百万点的极高维度三维激光雷达、不规则时间的基于事件的相机,甚至还包括跟其他车辆的互动和动态场景。”
科学家团队能扩展诸如超车、跟车和谈判等互动驾驶任务的复杂性,包括在高度逼真的环境中的多代理场景。
因为大部分数据只是日常驾驶,所以这为自动驾驶汽车训练人工智能模型涉及难以保障的不同种类的边缘案例和奇怪、危险的场景。从逻辑上讲,我们不能只是为了教一个神经网络如何不撞上其他汽车而撞上其他汽车。
最近,有一个转变是,从更经典的、由人类设计的模拟环境转向由真实世界的数据建立的模拟环境。后者具有巨大的逼真度,但前者可以很容易地对虚拟摄像机和激光雷达进行建模。随着这种模式的转变,出现了一个关键问题:自动驾驶汽车所需要的所有传感器的丰富性和复杂性如激光雷达和基于事件的摄像机都是比较稀疏的并能否准确地被合成?
在一个数据驱动的世界里,激光雷达传感器数据更难解释--你实际上是在试图生成具有数百万个点的全新的三维点云,而这一切只是从世界的稀疏视图中提取。为了合成三维激光雷达点云,研究人员使用了汽车收集的数据并将其投射到来自激光雷达数据的三维空间,然后让一个新的虚拟车辆从原来的车辆所在的地方开过去。最后,他们在神经网络的帮助下,将所有的感官信息投射回这个新的虚拟车辆的视野中。
再加上基于事件的摄像机的模拟,其运行速度超过每秒数千次事件,该模拟器不仅能模拟这种多模态信息而且还能够实时进行模拟。这使得离线训练神经网络成为可能,但也可以在增强现实设置中对汽车进行在线测试以进行安全评估。Amini说道:“在数据驱动的模拟领域,这种规模的复杂性和逼真度的多传感器模拟是否可能,则是一个非常开放的问题。”
就这样,驾校变成了一个聚会。在模拟中,你可以四处走动,有不同类型的控制器,模拟不同类型的事件,创建互动场景并直接丢进甚至不在原始数据中的全新车辆。他们测试了车道跟踪、车道转弯、汽车跟踪及更多棘手的场景如静态和动态超车。有了多机构,真实的和模拟的代理人都可以互动,新的代理人可以被丢进场景并以任何方式控制。
但现在人类依赖的一个护栏还不能被模拟,那就是人类的情感。这是友好的挥手、点头或确认的眨眼开关,这是团队希望在未来工作中实现的细微差别类型。
“这项研究的核心算法是我们如何能够采取一个数据集并建立一个完全合成的学习和自主的世界。这是一个平台,我相信有一天可以在整个机器人技术的许多不同轴线上扩展。不仅仅是自动驾驶,还有许多依赖视觉和复杂行为的领域。我们很高兴发布VISTA 2.0,以此来帮助社区收集他们自己的数据集并将其转换为虚拟世界,他们可以直接模拟自己的虚拟自主车辆,在这些虚拟地形上行驶,在这些世界中训练自主车辆,然后可以直接转移到全尺寸的真正的自动驾驶汽车,”Amini说道。