[CL]《Universal YOCO for Efficient Depth

[CL]《Universal YOCO for Efficient Depth Scaling》Y Sun, L Dong, T Ye, S Huang… [Microsoft Research] (2026)

在大语言模型推理扩展领域，循环加深计算是提升模型能力的自然路径，但标准Transformer每循环一次，KV缓存就随层数线性膨胀，全局注意力重复执行的代价几乎让这条路走不通。

本文的核心洞见是：把"需要循环的层"和"需要全局记忆的层"重新看作两个可分离的功能模块。由此，将递归迭代限制在仅使用滑动窗口注意力的浅层Self-Decoder、而非整个网络，这一关键操作使问题得以解开——循环带来表达深度，全局KV缓存只生成一次且与迭代次数无关，两者互不干扰。

这项工作真正留下的遗产是：证明了"计算深度"与"内存开销"可以在架构层面解耦，而非只能通过工程优化折衷。它为后来者打开的新门是：将高效注意力机制与递归计算系统性结合，作为下一代可扩展LLM的基础架构范式。但尚未跨过的门槛是：递归迭代在实验中呈现边际收益递减，如何动态决定每个序列或每个token所需的迭代深度，仍是开放问题。

arxiv.org/abs/2604.01220

机器学习人工智能论文 AI创造营

泡泡资讯网

[CL]《Universal YOCO for Efficient Depth

热门分类