强化学习是对传统模仿学习的边缘场景补齐辅助驾驶领域老生常谈的方法论是:我们在道

都懂一电电 2025-09-27 18:43:34

强化学习是对传统模仿学习的边缘场景补齐

辅助驾驶领域老生常谈的方法论是: 我们在道路上搜集到足够多的数据,然后再用这些数据算法进行训练。不断收集数据,不断进行训练,再次部署,然后收集新的数据。这也是Momenta 提出来的飞轮开发模型理念。

但是,我们也知道并不是所有的数据都是有用的,对于辅助驾驶来说,大量数据都是单调重复的。

例如高速直道,可见度高。

简单来说,当一个系统本身质量越好,所遇到的失败或者危险场景就越少,那么这个系统收集到的数据就会越少,继续改进就会越难。

这是模仿学习的瓶颈的来源。我们在遇到所有的问题之前,无法预知所有的问题的解法。

而来到端到端时代之后,事情就变得更加复杂了。

大部分团队都会选择使用老司机的优秀驾驶数据,用来模仿驾驶风格和处理方法。

这就更加依赖所收集到数据的覆盖度。

但是世界何其复杂,到什么规模才能满足要求呢?

出于成本,出于时间,出于迭代效率,我们得找到一个数据使用效率更高的办法。

至境L7全球首发的基于强化学习的Momenta R6飞轮大模型,就是一次很好的尝试。

将正负样本都纳入学习,在模型学习真实场景轨迹时,也加入一些惩罚项和奖励项,例如舒适度偏好,安全偏好,控制器相关的信号偏好;将机械的模仿转化成,优秀轨迹上的Policy,将负样本的惩罚原因也学习在神经网络里。

不仅是学习轨迹,也学习轨迹背后的原理。在这种学习范式下,“逍遥智行”Momenta R6飞轮大模型的目标不是人类老司机的驾驶水平, 而是超越人类老司机。

求其上者得其中,求其中者得其下。有更高的目标才会有更好的表现。

所以在实测视频中我们看到在一些复杂场景,无标线场景,电瓶车博弈,人车混行都有了领先的表现。

对于别克来说,Momenta 的智能加持和上汽通用的控制技术,能让辅助驾驶的驾驶感受更好,相对平滑的加减速是安心感的来源。

可以期待,强大的算法和领先的整车工程在这辆车上碰撞出的令人惊奇的表现。

在补齐了辅助驾驶的短板之后,别克至境作为“逍遥”架构打造的首款量产车,驾驶质感和乘坐体验都可圈可点,在20-25 万区间内拥有很强的竞争力,甚至大胆点估计,会不会带上高阶辅助驾驶的版本可以进入20万区间,一举找回别克当年燃油车的荣光?

2025年,市场越来越热闹了,在合资车企们靠我们本土供应商获得了珍贵的智能化表现之后,会成为合资车企反攻新能源的元年吗?

决赛还没正式开始,没有选手可以放松。

至境L7MomentaR6首发上路

至境L7上市谁最慌

0 阅读:1
都懂一电电

都懂一电电

感谢大家的关注