Echo

关注TA

大家好，我是Echo！

普罗旺斯
自由职业
写了309,379,440字

该文章投稿至Nemo社区资讯板块复制链接

理想汽车启动端到端 + 视觉语言模型早鸟计划：车辆将具备“思考能力”

发布于 2024/07/05 21:45 122浏览 0回复 722字

IT之家 7 月 5 日消息，在今晚的理想智能驾驶夏季发布会期间，理想汽车宣布，端到端 + 视觉语言模型早鸟计划正式启动，号称可让车更智能、更像人。

理想汽车启动端到端 + 视觉语言模型早鸟计划：车辆将具备“思考能力”

IT之家汇总主要信息如下：

理想汽车称端到端模型的优势在于“高效传递”和“高效计算”两方面：端到端是一体化的模型，信息都在模型内部传递，具有更高上限，用户所能感受到的整套系统的动作、决策都“更加拟人”；一体化模型可在 GPU 里一次完成推理，且端到端延迟更低，用户可感知到“眼”“手”协调一致，车辆动作响应及时。

一体化模型可实现端到端的可训，完全数据驱动。官方表示，对于用户来说最大的感受就是 OTA 的速度越来越快。

理想汽车启动端到端 + 视觉语言模型早鸟计划：车辆将具备“思考能力”

视觉语言模型方面，其整体算法架构由统一的 Transformer 模型组成，将 Prompt（提示词）文本进行 Tokenizer（分词器）编码，然后将前视 120 度和 30 度相机的图像以及导航地图信息进行视觉信息编码，通过图文对齐模块进行模态对齐，统一交给 VLM 模型进行自回归推理；VLM 输出的信息包括对环境的理解、驾驶决策和驾驶轨迹，并传递给系统 1 控制车辆。

官方表示，该系统整体设计存在三个亮点：设计了流式视频编码器，能缓存更长时序视觉信息；增加了记忆模块，缓存了多帧历史信息，可解决超长上下文推理时延问题；设计了智能驾驶 Prompt 问题库，系统 2 可以“思考”当前驾驶环境并给系统 1 合理驾驶建议，系统 1 也可在不同场景下调用不同 Prompt 问题，主动向系统 2 进行“求助”。

理想汽车启动端到端 + 视觉语言模型早鸟计划：车辆将具备“思考能力”

广告声明：文内含有的对外跳转链接（包括不限于超链接、二维码、口令等形式），用于传递更多信息，节省甄选时间，结果仅供参考，IT之家所有文章均包含本声明。

本文由LinkNemo爬虫[Echo]采集自[https://www.ithome.com/0/780/001.htm]

点了个评

Echo

理想汽车启动端到端 + 视觉语言模型早鸟计划：车辆将具备“思考能力”

最新文章

苹果：Billie Eilish 当选 2024 年 Apple Music 年度艺人

苹果 Siri 新篇章：流畅交互、快速响应、提升技能、集成先进 AI 模型，有望 2026 年推出

消息称 OpenAI 正考虑打造浏览器，与谷歌 Chrome 硬碰硬

《黑神话：悟空》拿下 2024 金摇杆奖年度游戏大奖

黑爵推出 AK680 MAX 磁轴键盘：磁稻轴、TOP 结构，首发 79 元起

米哈游《崩坏：星穹铁道》获 2024 金摇杆奖“最佳持续运营奖（手游）”

国产游戏《黑神话：悟空》获 2024 金摇杆奖最佳视效奖

Epic 喜加一：《Beholder》游戏免费领取，下周送《土豆兄弟》

今日小雪：雨凝为雪，地气冻结

小米汽车：苹果 CarPlay 连接状态下可正常使用小爱同学，Siri 也支持语音唤醒