前段时间和小米汽车辅助驾驶的团队进行了一次交流,这次交流信息量还是比较大的。这里

六三充电中 2025-11-25 12:12:15

前段时间和小米汽车辅助驾驶的团队进行了一次交流,这次交流信息量还是比较大的。这里简单写个目录:- 小米汽车辅助驾驶的组织架构- 陈光博士-小米做世界模型的思考与不同- 陈龙博士-小米为什么要做 VLA?小米打算怎么做?- 王乃岩博士-在技术还没到位之前 L3 还能做什么?在广州车展上,小米公布了现在在辅助驾驶方面的投入,而且还公布了现在辅助驾驶各项业务的负责人,通过这个我们也可以了解到现在小米在辅助驾驶方面的发展思路。- 叶航军:小米智能驾驶业务负责人。叶博士也是小米的老员工了,12 年就加入了小米集团,在清华读的本科、硕士和博士,博士的专业方向是计算机视觉,21 年小米开始造车的时候叶博士正式加入小米汽车,开始组建团队。- 陈光:端到端算法开发和功能交付陈光博士 09 年在美国读的博士,博士的方向也是计算机视觉和机器学习,之前在斯坦福国际研究院和美国百度阿波罗。现在小米汽车即将推送的这个 HAD 增强版就是陈光博士负责,这个版本比较大的一个变化就是上了强化学习。其实强化学习出来已经很多年了,但是在车上的应用还比较少,在陈光博士看来,想要用好强化学习有两个很重要的前提。第一个是需要有一个高保真的世界模型,第二个是需要有一个高效率的训练框架和训练策略。只有有了这两个前提,才能真正用好强化学习,所以小米也自研了世界模型。关于高保真的世界模型,小米认为一方面需要能高保真的重建真实世界,另一个是具备生成式拓展能力。这里高保真的真实世界很重要的一点是几何上和物理学上都要严格符合物理规律的。比如说车辆发生了碰撞之后产生的反弹必须是符合真实世界规律的,这样训练才有意义,不然本身场景就是错的,模型怎么可能继续提升?另外生成式拓展的能力是指,这个世界模型可以在相同的场景下生成不同天气雨雾,不同地面附着力的场景,从而可以进行不同场景的测试。上面这些是世界模型可用的基础,小米的世界模型还会生成相对应的激光点云等一些原始传感器的信号,来满足多模态的生成的需求。另外,小米这个世界模型还构建了一整套的这个 4D 数字资产,这个 4D 是指在 3D 的基础上增加了时间的维度。原因是很多物体影响我们决策的不止有外表形态,还有一些时间的变化,比如红绿灯黄闪场景,类似的 4D 数字资产,小米内部维护了超过 10 万个,这样可以让小米的世界模型具备更强的生成能力。关于高效率的训练框架和训练策略,这个比较好理解,在世界模型里生成的场景是成千上万的,对于小米来说,需要能更高效的进行训练,才能真正训出一个好的模型。这里根据陈龙博士的介绍,小米汽车采用了异步机制、大规模集群管理和高效的视频模型生成来完成对强学习的快速监督。而且小米会针对任意一个场景进行不同的奖励规则的设计,这样可以让模型可以进行更自由去探索,同时在探索的每一步可以及时得到反馈,做的对的就及时给予奖励,如果做的不对的及时惩罚以及停止。换句话说就是让模型一边学一边验证,避免在最后一步才知道做的对不对。另外小米也会对场景进行区分,驾驶难度低的就不进世界模型训练了,相信之前老司机的数据,只有比较难的高风险场景才会进世界模型进行强化学习训练。落到这次体验的提升就是,对 cut-in 加塞预测识别更好,纵向舒适性更好,同时复杂路口认路更强。这里比较有意思的是除了单纯的算法优化,得益于和底盘控制器的联调,对舒适性也有帮助,顿挫感了 17%,泊车效率提高了 3%。(我的理解是,这里应该就是底盘控制器响应速度更快带来的优势?)- 陈龙-VLA 技术负责人陈龙博士是今年 3 月刚加入小米汽车,之前在 Wayve 做 Lingo 项目(利用视觉语言模型来做辅助驾驶-就是 VLA)。首先 VLA 现在争议很多,小米汽车认为辅助驾驶从最早的规则时代-规则驱动,发展到了端到端-数据驱动,下一个阶段需要认知驱动。这一点陈龙博士是非常笃定的,在陈龙博士看来通过推理得到的信息量是比单单使用视觉的信息量要高很多的。在飞猪老师的视频里举了很好的例子,比如一辆车开到了一个死路里,开了 1 km,正常人知道我开了 1 km 进来,我要解这个问题就得开回去。对于没有 VLA 的系统来说,想要记住 1 km 前是岔路,我要回到 1 km 前,需要非常长的上下文窗口,这超级消耗算力,但是对于 VLA 来说你几个字就能解决,因为没必要记住开过来所有的细节,其实人也一样。包括陈龙博士认为,特斯拉的端到端已经做得非常好了,但是在国内交通规则遵守不是特别好,这些想要做好肯定是需要利用语言能力的。所以下一个问题是,小米汽车怎么做 VLA?首先陈龙博士明确说了,基于开源的基座模型做做微调是不行的。因为现在开源的模型往往使用了网上的一些数据进行预训练,模型对 3D 空间感知跟空间推理能力是不强的。而且对真实的室内环境,室外道路环境是不了解的,或者是对各个省份不同的这个道路环境,是没有普遍认知的。所以小米汽车选择了自研了具身基座模型。小米具身基座模型的特点是结合了很多驾驶数据,还有一些机器人操作的数据,然后把这两种模态的数据融合在了一起,进行了预训练。所以这个模型可以通过驾驶数据,还有机器人数据,来共同学习出一个对空间环境的感知和推理的能力。这也是小米第一个对外说这个事儿,也是业内第一个自动驾驶加机器人统一的一个基座模型。(所以小米如果有一天要做机器人的话,软件这块会有很好的基础,dddd。)不过我们也提到目前市面上已经量产的 VLA 存在一些问题,比如说延时高,这方面陈龙博士的回答是:「可能是比如说还在双系统的阶段,VLM 运行在一个更低的频率上面,然后传输给 VLA 的这个速度不是特别快,也有可能是这个车辆的算力还是没有特别的大,然后它如果输出很多的语言的话,肯定会有带来一定的延时的问题。」基于这个问题,陈龙博士的解法是,推理的时候并不需要说很长的一句话,可以把它推理过程缩短一些,只要把关键信息说出来就行。不过最终还是需要有一个比较大的算力,模型也需要针对自动驾驶场景做很多的优化,包括一些模型尺寸,还有一些模型的量化的一些技巧,使模型运行速度越来越快,可能才会带来更好的 VLA 体验。不过我们追问,小米觉得需要多少算力的时候,陈龙博士并没有正面回答,只是说:「推理更多的 TOKEN,它的效果可能会越来越好。这个到底需要多少算力?并没有一个明确的答案,就是小算力,有小算力的做法,大算力有大算力的做法,只能说你的算力越大,可能你到达的这个程度会越高。」- 王乃岩:L3 技术负责人王乃岩是在香港科技大学读的博士,也是计算机科学专业,来小米之前是图森未来中国 CTO。在王乃岩博士看来,想要做到 L3 首先肯定是需要一个足够聪明的大脑,但是现在的大模型,哪怕是全世界最强的,也依然会出错,所以这方面的技术肯定还是需要继续迭代的。那在 AI 技术发展的过程中现在还能做什么呢?这里主要是 3 方面的冗余:- 架构冗余- 硬件冗余- 算法冗余架构冗余就是车的供电系统、通讯系统等等,硬件冗余就是感知传感器的冗余,某一个传感器挂了不能影响车辆的运行。算法冗余上王乃岩博士认为单个的算法、单个模块会出错,所以需要设计一个与之互补的另外一个模块,就像两个大脑它可以去互相交叉验证。关于 L3 还在研发阶段,所以分享的信息并不算太多,但是从组织架构的分工上,可以看出小米在这块是有规划的。在飞猪老师的采访里也博士也明确了,现在内部大的路线就是两条路线并行,一条是已经量产的,陈光这边的路线,另一条就是研发中的在王乃岩下面的路线。最后是关于速度的问题,这点飞猪在视频采访里问的比较犀利,为什么有一种匆匆忙忙,慢半拍的感觉。这里叶博士也坦言,一方面是因为起步确实晚一些,花了很长时间去做基础设施建设(比如数据体系、验证体系,我理解像世界模型、基座模型也是基础建设)。另一方面是小米每个技术路线都没有跳过,在叶博士看来,每一代对基础能力的锻炼都是有必要的。比如基于高精度图的城市领航,虽然用户视角下没有过这个东西,但是在内部经历过这个过程。因为辅助驾驶是一个非常综合的难题,对于刚成立的团队把所有难题都包在一起去解这太难了,每一个环节都是不稳定的,通过高精度图把一些能确定的东西先确定,可以相对解耦的去锻炼团队的能力。上面这些就是小米汽车辅助驾驶沟通会的全部内容了,小米现在的辅助驾驶当然不是最 Top 级的,但是你不可否认的是一个 21 年才成立的公司的追赶速度。通过这次沟通,我们可以更清晰的知道,现在小米汽车辅助驾驶团队的状态、规划是怎么样的,收获很多,剩下的等小米交卷即可。

0 阅读:0
六三充电中

六三充电中

感谢大家的关注