用视频生成的仿真场景,能有多逼真?
两旁的行人,前车的刹车灯…… 连这些细节,都能动态显示得清清楚楚。
两辆自行车行驶在道路中间,避让通过:
这就是如今自动驾驶“当红炸子鸡”Wayve,在 CVPR 2024 上分享的最新成果:
自动驾驶仿真模型 PRISM-1,没有激光雷达,没有 3D 标注信息,只基于摄像头输入的信息。
PRISM-1:利用视频数据重建 4D 真实场景
模拟仿真测试是自动驾驶的重要环节。
实车测试周期长,成本高,覆盖的工况和长尾问题有限,尤其是极端场景下的 Corner Case,实车测试比较危险,且调试程序后,可能不好复现验证。路还是那条路,但路况和道路参与者一直都在变。
因此,通过合成数据,仿真测试自动驾驶系统的路线,正在受到关注。
成本低,配置灵活,场景覆盖率高,对特殊的 Corner Case 能够复现后再验证,可以与实车测试形成互补。
不过自动驾驶模拟仿真也面临着诸多挑战,比如在场景重建环节,复杂的城区道路,有很多动态元素难以准确呈现,像行人和自行车,不仅形态各样,而且行为灵活难预测。
传统还原通过场景图的方式,将元素组织成层次结构,用节点表示场景中的实体,用彼此的边缘表示它们之间的关系。
这种方式不够灵活,因为当车辆模拟测试时,周边场景其实一直在动态改变,一些元素无法完美分离,会导致错误传播。
为了突破传统方式的局限,Wayve 转向更灵活、能自适应的模拟方案,在端到端的基础上,提出了 PRISM-1 模型。
主要是三个特点:
框架更灵活:能有效处理常见元素,模拟移动元素,甚至包括瞬态场景元素,比如风吹动的树叶,隧道中的波动光线。
自监督场景分离:无需标注或预定义模型,分离场景中的动态元素和静态元素。
可扩展表示:即使场景复杂度增加,PRISM-1 仍能保持高效。这最大限度地减少了工程量和错误传播。
详细过程,Wayve 没有披露,只是主要介绍了视图合成方面的创新点。
具体地说,PRISM-1 重点关注摄像头观测到的路径的偏差。
无需依赖其他传感器,只靠摄像头,获取车辆行驶时的一组稀疏图像,重建 4D 场景。
当然,用摄像头获取数据场景数据,有一个天然限制,那就是在动态场景下,只能从一个视角拍摄其中的元素。
如何在任意时刻,从不同视角重建 4D 场景?
PRISM-1 在承认车子动态特性的前提下,通过两种方式改变摄像头路径:
第一种方式,冻结时间。
测试车辆周遭一切都暂停了,场景的时间维度不变,但空间可变,摄像头左右平移,以不同角度查看周边场景。
第二种方式,冻结空间。
测试车辆自身保持静止,空间数据不变,但时间还在变化,周遭事物还能运动,观察其变化。
两种方式结合,Wayve 可以利用 PRISM-1 从各种视角重建场景,甚至复现一些细节,比如前车刹车灯亮了。
Wayve 还将在此基础上,继续迭代工作。
下一步,Wayve 打算加强模型的可扩展性和灵活性。
比如,用模型去重建一个“行人通过斑马线”的场景。
如果需要,也可以把行人移除掉。
推出 PRISM-1,提高自动驾驶模拟的真实性,加快算法迭代的同时,Wayve 还开源了一个场景数据集 WayveScenes101 Dataset,顾名思义,包含了 101 个复杂动态场景。
涵盖了英美两地,不同的驾驶环境和路况,包括多种天气和光照条件下的城区、郊区和高速公路。
当然,能被微软和英伟达同时相中押注,Wayve 的工作成果远不止这些。
自动驾驶独角兽,微软英伟达都投了
遍观全球,最近一段时间,特别是在自动驾驶领域,很少有独角兽,能盖住 Wayve 的风头了。5 月 7 日,Wayve 官宣了 10.5 亿美元 (折合人民币约为 75.8 亿元) 的新一轮融资。
软银领投,微软和英伟达跟投。数额之巨,投资者阵容之豪华,实属罕见,轰动一时。
在此前,只有 Waymo、Argo 和 Cruise 等,获得过这个级别的融资。
Wayve 一举刷新英国 AI 公司单笔融资的记录,连英国首相也在声明中表示,这「巩固了英国作为 AI 超级大国的地位」。彼时的 Wayve 都有什么技术成果,吸引巨头押注?
主要是一个架构,两个模型:
一个架构是指端到端的 AV 2.0,不依赖高精地图,Wayve 称可兼容纯视觉和激光雷达多种方案。
两个模型是指 LINGO 系列以及 GAIA-1,分别是 Wayve 在 AI 的可解释性与 AIGC 上的成果。
首先来看 LINGO 系列,去年 9 月,Wayve 推出了 LINGO-1 模型。
Wayve 将其称之为 VLAM (视觉-语言-动作模型),与传统技术范式不同的是,视频数据之外,Wayve 还引入了老司机语音包进行训练:
Wayve 请来很多专业司机,要求他们在开测试车辆做出相应操作时,大声说话,解释自己为什么这么做。
这样,自然语言就被引入了自动驾驶,LINGO-1 实现了在开车时,解释自己的决策逻辑,这提高了模型的可解释性。
这项工作最近升级至 LINGO-2,进一步增强了人车交互,司机可以通过限定的命令,比如「靠边停车」,调整智驾的开车策略。
另外一个模型则是 GAIA-1,是一个为自动驾驶打造的多模态生成式世界模型,参数规模 90 亿。
输入视频、文本和操作,就能生成逼真的自动驾驶视频,不同路况和天气,效果都能以假乱真。
诶等等,GAIA-1 能生成自动驾驶测试的视频,PRISM-1 能用视频模拟真实场景,两个一结合,这不就闭环了吗?doge
当然没有这么简单,在去年 6 月,Wayve 推出 GAIA-1 早期版本后,就有相关研究人员指出,模型生成的视频中,会有一些元素在后续“突然消失”,还不完善。
虽然去年 10 月,Wayve 更新了 GAIA-1,扩大了参数规模,增加了训练时长,模型生成视频的细节和分辨率都有明显提升,但是否完全克服了“元素突然消失”的问题,还有待充分验证。
引领 Wayve 打造这些成果的,是两位联合创始人:
Alex Kendall (亚历克斯・肯德尔) 与 Amar Shah (已退出)。
两人都是剑桥大学机器学习专业的博士,于 2017 年创立了 Wayve。
其中肯达尔去年曾陪同比尔・盖茨试乘旗下产品,比尔・盖茨后来点赞其工作:
That was fantastic!
或许是这次试乘打动了比尔盖茨,微软连续两次出手,投资 Wayve。
Wayve 也是不负所托,最近一年频频拿出成果,给行业带来惊喜。
时值 CVPR 2024,Wayve 也举办了一系列活动,PRISM-1 研究人员就在现场。
本文来自微信公众号:智能车参考(ID:AI4Auto),作者:有据无车
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。
本文由LinkNemo爬虫[Echo]采集自[https://www.ithome.com/0/776/527.htm]