[LG]《Olmo Hybrid: From Theory to Practic

[LG]《Olmo Hybrid: From Theory to Practice and Back》W Merrill, Y Li, T Romero, A Svete… [Allen Institute for AI] (2026)

在语言模型架构领域，"用循环层替换注意力层是否值得"是一个悬而未决的实践难题。过去的纯Transformer受困于无法表达状态追踪（如变量交换序列），而纯线性RNN又因有界状态无法胜任长距离召回，本质原因是两者各自的计算机制存在互补的盲区。

本文的核心洞见是：把混合架构重新看作一种超越两者之和的新计算范式。GDN层用负特征值实现状态追踪，注意力层实现精确召回，二者交替叠放后能解决"状态依赖召回"——即先追踪指针状态、再用该指针索引数组——这一任务既不可由纯Transformer表达，也不可由纯GDN表达。由此，将25%注意力层与75% GDN层交错排列这一关键操作，使7B模型用少49%的训练token便追上同规模纯Transformer，并在所有基准上全面领先。

这项工作真正留下的遗产是：首次在受控大规模实验中，同时用理论（电路复杂度与量化缩放定律）和工程证据证明混合架构是基础性优势而非工程技巧。它为后来者打开的新门是：更高表达力可系统性地改善数据效率系数B，这一理论框架可指导未来架构搜索。但尚未跨过的门槛是：后训练阶段（尤其是强化学习）中RNN状态的数值精度问题仍制约推理稳定性，且理论预测与实验之间的定量对应尚需更严格的验证。

arxiv.org/abs/2604.03444

机器学习人工智能论文 AI创造营

泡泡资讯网

[LG]《Olmo Hybrid: From Theory to Practic

热门分类