泡泡资讯网

特斯拉 FSD 14.3 的更新说明,东西还挺多的。1️⃣Rewrote t

特斯拉 FSD 14.3 的更新说明,东西还挺多的。

1️⃣Rewrote the AI compiler and runtime from the ground up with MLIR, resulting in 20% faster reaction time and improving model iteration speed.

用 MLIR 从零重写了 AI 编译器和运行时,带来 20% 的反应速度提升,并加快了模型迭代速度。

推测这个东西可以让老硬件跑更复杂更新的模型。

因为MLIR 框架允许在多个抽象层级做融合优化,最典型的是把多个连续的矩阵乘和激活函数合并成单次 kernel 调用,大幅减少内存带宽消耗,也能加快模型迭代速度。

2️⃣Upgraded the neural network vision encoder, improving understanding in rare and low-visibility scenarios, strengthening 3D geometry understanding, and expanding traffic sign understanding.

升级了神经网络视觉编码器,提升对罕见和低能见度场景的理解,强化 3D 几何理解能力,扩展交通标志识别范围。

vision encoder 是整个网络感知核心,它负责把多路摄像头的视频帧压缩成高维特征向量,后续的时序融合和 action 生成都基于这个向量。

之前v14.2 已经做过一轮 encoder 升级 ,14.3 继续迭代,重点在于低能见度场景(逆光、大雨、隧道出入口),这些场景的原始图像都是信噪比极低的,大概率通过扩充极端光照条件的训练样本来实现,而非修改网络结构。

3D 几何理解的改进在纯视觉端到端也是重点,因为没有 LiDAR 辅助,「深度」完全由 encoder 从多路摄像头的视差关系里隐式学出来,能把这个做得更准,说明训练数据的多样性和 batch size 都到了一个新台阶。

3️⃣Upgraded the Reinforcement Learning (RL) stage of training the FSD neural network, resulting in improvements in a wide variety of driving scenarios.

升级了 FSD 神经网络训练中的强化学习阶段,带来广泛驾驶场景的全面改进。

Tesla 的端到端训练目前已知是「模仿学习预训练 + RL 微调」的两阶段结构。模仿学习让模型学会「像人类一样开车」,RL 阶段则通过奖励函数让模型超越人类示范,学会更安全、更流畅的行为。

「升级了 RL 阶段」,要么是奖励函数本身被重新设计,要么是 RL 训练的 rollout 环境的保真度提升了,让 agent 能探索到更多 edge case。

结合后面具体场景的更新说明来看,还是有更多的场景被拿去训练了。

4️⃣ Improved handling of small animals by focusing RL training on harder examples and adding rewards for better proactive safety.

通过在更难的样本上集中强化学习训练,并增加主动安全奖励,改善了对小型动物的处理能力。

正常行驶数据中小动物横穿是很少见的,模型自然很少见到这个 case,梯度更新几乎为零。

Tesla 大概率是设计一个分类器,专门从全球的车队数据识别出包含小动物的片段,然后对这些片段过采样,让 RL agent 在训练中反复面对这个场景。

「添加主动安全奖励」则说明 RL 函数被专门修改,比如提前减速比紧急制动得分高,绕行比直行穿越得分高,鼓励模型形成预判行为而非反应行为。

5️⃣Improved traffic light handling at complex intersections with compound lights, curved roads, and yellow light stopping – driven by training on hard RL examples sourced from the Tesla fleet.

通过从特斯拉车队中获取难度较高的强化学习样本进行训练,改善了复杂路口(含组合交通灯、弯道路口)的交通灯处理及黄灯停车能力。

Compound lights 就是一个路口有多组交通灯的复杂场景,端到端模型必须从视频流里同时理解空间位置关系和信号状态,这是一个典型的需要时序注意力的问题。

「弯道路口」难在摄像头视角与信号灯的几何关系更复杂,encoder 的 3D 理解能力直接决定模型能否正确关联「这盏灯管的是我这条车道」。

黄灯停车一直是个高不确定性场景,RL 训练里可以显式设计「距离停止线 X 米以内遇黄灯的正确处理奖励」,让模型不依赖阈值规则,而是学出一个连续的决策函数。

6️⃣ Improved handling for rare and unusual objects extending, hanging, or leaning into the vehicle path by sourcing infrequent events from the fleet.

通过从车队数据中获取低频事件,改善了对延伸、悬挂或倾斜进入行驶路径的罕见异形物体的处理能力。

大概率就是建筑吊臂、折断路牌、低垂树枝,它们的共同特征是形状高度多变、不属于任何固定类别。

传统模块规则对这种场景都不好搞,因为分类器没见过这个类别。而端到端模型的好处就是它不需要先「认出这是什么」,可以直接从视觉特征中学会「有东西侵入了我的行驶空间,需要减速或绕行」这个 action 关联。

包括后面所以校车的特种车辆的识别改进,还有避坑洞的能力提升,这些 FSD 更新难点都在于自动标注,怎么判断「这段视频里有罕见侵入物体」本身就需要一个前置分类模型,说明 Tesla 的数据挖掘 pipeline 已经有能力做多级自动筛选。

6️⃣Mitigated unnecessary lane biasing and minor tailgating behaviors.

减轻了不必要的车道偏倚和轻微跟车过近的行为。

如果训练数据里的人类驾驶员倾向于靠车道某一侧行驶(比如中国路况下习惯靠右),模型会把这个偏好学进去。

跟车过近同理,如果人类驾驶员的示范数据里普遍存在轻微跟车(城市拥堵路况),模仿学习阶段就会把这个行为固化。

修复方式要么是在 RL 阶段用明确的负奖励惩罚这两种行为,要么是在数据筛选时过滤掉包含这类行为的人类示范片段,让模型别学这些坏习惯。

7️⃣ Increased decisiveness of parking spot selection and maneuvering. Improved parking location pin prediction, now shown on a map with a (P) icon."*

提高了停车位选择和操控的果断性。改进了停车位置图钉预测,现在在地图上以 (P) 图标显示。

端到端模型在停车场景里的「犹豫」,本质上是模型在高不确定性情况下输出的 action 分布过于平坦。

每个候选停车位的「吸引力」差不多,导致模型在多个选项间反复横跳。「更果断」意味着 RL 的奖励函数里引入了对「commit 行为」的正向激励,一旦开始向某个车位移动,中途放弃的代价要高于坚持完成的代价。

8️⃣ Improved handling of temporary system degradations by maintaining control and automatically recovering without driver intervention, reducing unnecessary disengagements.

通过在不需要驾驶员干预的情况下保持控制并自动恢复,改善了对临时系统降级的处理,减少了不必要的退出。

端到端模型遇到摄像头脏污、光照突变、短暂遮挡时,输入质量瞬间下降,模型的置信度也随之下降。早期做法是直接触发 disengagement,让用户接管。

现在的改进意味着模型有了某种「降级行驶模式」,在部分感知受损时,自动切换到更保守的 action 空间(降速、保持车道、减少变道),用更低风险的行为来弥补感知质量的下降,直到系统恢复正常。这和未来去掉「Supervised」这个词直接相关。

🔟Expand reasoning to all behaviors beyond destination handling.

将推理能力扩展到目标地处理之外的所有行为。

目前 FSD 的语言推理只覆盖了「去哪里」的高层决策,下一步要让推理渗透到每一个驾驶行为。

感觉也是要增加更多推理能力?难道也要搞 VLA?