泡泡资讯网

蔚来【蔚来智驾世界模型 NWM 2.5 版本开启推送,将覆盖超 70 万辆车】6

蔚来【蔚来智驾世界模型 NWM 2.5 版本开启推送,将覆盖超 70 万辆车】6 月 18 日,蔚来世界模型 NWM 2.5 版本正式开启全量推送,覆盖蔚来和乐道两个品牌、四个硬件平台、超过 70 万辆车。从 2022 年量产的 ET7 到上个月刚发布的乐道 L60 激光雷达版,都将收到这次更新。

蔚来称,这也让其成为行业内首家在通用芯片平台(英伟达 Orin)与自研芯片平台(神玑 NX9031)之间实现智能驾驶共线开发、同步发版的车企。

新版本在技术架构上主要有几个变化:训练框架从此前的 “世界模型 + 闭环强化学习” 升级为 “世界模型 + 监督微调 + 闭环强化学习”,新增的监督微调环节利用优质驾驶行为数据对模型做精细调整;同时,模型的输出方式从轨迹改为直接输出方向盘和油门踏板信号,路径更短、延迟更低。此外,新版本新增了对潮汐车道、可变车道天空路牌的实时识别与通行能力,在误刹车与风险干预两个相互矛盾的指标上做到体验更优。

在 6 月 17 日下午的技术沟通会上,蔚来智能驾驶研发副总裁任少卿用了大量篇幅讲述算法之外的东西——芯片选型、传感器布局、AI 编译器、数据闭环、跨平台部署。

他的核心观点是:算法会一代代迭代,但支撑算法落地的工程基建更底层、更稳定,也更难复制。蔚来从 2020 年组建全栈自研团队开始,就把相当一部分精力放在了这些 “不容易被看见” 的基础设施上,这是蔚来今天能在四个平台上同时发版、安全里程持续提升的重要原因。

蔚来透露,自今年 1 月世界模型版本推送后,用户使用时长与使用率已翻倍增长。

以下为沟通会问答环节整理,有删节。

提问:此前提到过 VLM 和世界模型的路线之争,现在有没有比较清晰的走向?

任少卿:算法有不同想法是正常的,目前逐渐在收敛。从 2016 年到 2022 年,自动驾驶算法变化其实很慢,将近八年最大的变化主要就是 BEV(鸟瞰视角)和 OCC(占用网络)。但从 2022 年开始,整体技术又从确定变得不确定,充满各种机会。

我们内部从 2023 年下半年开始研发世界模型,当时核心想法就两个:第一,模型能用自监督方式训练,不需要再标注那么多数据;第二,变成多模态统一网络。今年上半年我们推出的 “世界模型 + 闭环强化学习” 架构,从技术角度不弱于特斯拉,尤其在闭环强化学习方面比较领先。

提问:从大模型向低算力平台部署,行业有两种做法——重新训一个小模型,或者从大模型蒸馏出小模型。蔚来怎么选?

任少卿:这两条路在 AI 历史上一直在切换。对我们来说都是成熟技术,针对具体模型哪个效果好就用哪个。目前车上的模型,蒸馏的概率更大一些。大语言模型领域更多用蒸馏,是因为缺数据、需要从大模型 “榨” 出来。但我们有数据,所以两边都跑,选效果好的。

佘晓丽(产品系统部负责人):新版本在建模方式上也有变化,比如更 “端到端” 地建模横向纵向控车,这类变化带来的体验提升,我们会带到单 Orin 版本上,这种情况更多选择蒸馏。每个版本取决于具体状态,选性价比最高的方式。

提问:蔚来 ES9 等 9 系车上两颗神玑芯片的工作逻辑是什么?为 L3 备份,还是跑不同模型?

任少卿:用同类芯片做 L3 冗余,传统做法是两块都跑,一块出问题另一块毫秒级接管。但这意味着 99.9999% 的时间为了 0.0001% 的故障概率多耗一倍功耗。所以我们设计了 “温备” 逻辑——备用芯片不需要完整运行,但可以快速加载接管。同时备用芯片平时跑两件事:一是伴生系统的数据筛选和验证逻辑,二是温备冗余功能。我们也在考虑未来更多利用这块算力的可能性。

提问:NWM 2.5 在行业内处于什么位置?怎么看特斯拉 FSD?

任少卿:FSD 国外版和国内版我们都体验了。特斯拉在数据体量和训练资源上确实世界领先,计算量可能比国内公司高一个数量级以上。从架构角度,我们今年上半年应该不弱于特斯拉。相比国内同行仍处于更领先的状态。

我们面临的核心问题是怎么在资源更少的情况下达到类似的结果。这个新版本在很多场景上性能已经不错了。但延迟问题大家也注意到了——从模型输出到底盘执行有很多层,智驾域一两层,底盘控制域还有两三层,历史上没有一个团队统管过全链路,每包一层接口延迟就增加。

接下来两三个月内,我们会跟底盘团队做深度打通,把蔚来在底盘自研和自动驾驶自研上的优势拼在一起,实现控制链路最小延迟。这是主机厂独有的优势,也是特斯拉值得我们学习的点。

提问:有没有可能未来模型不再需要数据闭环,靠更强的 AGI 能力直接提升?是否需要加入通识数据?

任少卿:数据才是这个时代 AI 的根。语言模型之所以能快速发展,是因为互联网上天然有海量数据——10 亿网民花十年上传的结果,而且上传本身就是一次数据筛选,因为人们为了流量会上传新奇的内容而不是平常的内容。

自动驾驶没有这样的条件。我们既没有那么大的现成数据量,也没有 10 亿人帮你做筛选。必须自己产生足够大的数据,同时自动化地筛选出足够多的 corner case。只有大量且高价值的数据产生后,神经网络才能发挥作用。到今天,越大的模型对数据的需求越强。

关于通识数据,我们确实也会使用一些互联网数据来增加场景覆盖。所谓 “通识” 对于人类来说就是学交规——红灯要停、白线不能压。目前有两种学习方式:一是加入语言模型辅助理解,这条路有用但目前不是主流路线;二是通过闭环强化学习,让模型明确学会 “不能压白线、不能闯红灯”,或者更精细地学会 “红灯倒计时还有 2 秒可以不用踩那么急”。后者更高效。

提问:现在多平台覆盖已经实现,但各平台硬件存在差异。如何发挥不同平台自身的性能优势?

任少卿:这里需要平衡两件事:第一,尽早让更多平台的用户拿到功能;第二,把各平台优势发挥出来。对我们来说,NT2 平台的部署已经比较极致,所以 NT3 和 NT2 的体验差异没有那么大——这也是用户能获得统一体验的原因。

后续在 NT3 的迭代过程中,我们会尽量让更多用户在第一时间体验到最新版本。今天的工程体系、数据体系都是为实现这个目标服务的。NT2 用户和 NT3 用户在 NT3 的生命周期内,都会获得基本相近的结果。

提问:为什么蔚来首先做的是 AI 基建和数据闭环,而不是直接做算法模型?

任少卿:因为我们认为数据是 AI 时代最关键的基础。算法会一代代迭代,每一代都需要最强的数据体系支撑。数据体系的思考周期更长、更稳定、更底层。

过去这么多年,算法名词出了无数——BEV、OCC、记忆、无图、端到端、世界模型。但从数据体系的角度,它们始终建立在算力调度体系之上。我们从 Day One 开始就想清楚了,只是不断完善和扩展。底层稳定性比算法要高得多。汽场全开