大模型版的“十字路口”深度访谈来了!NathanLambert(《基于人类反

蚁工厂 2025-11-13 10:32:17

大模型版的“十字路口”深度访谈来了!Nathan Lambert (《基于人类反馈的强化学习》一书作者,一直在跟踪各类开源模型进展)开始做开源模型的系列深度访谈了。这个系列将会访问全球领先的开源模型实验室(基本都是国内的了),展示人们为什么做这些事情,如何训练出优秀的模型,以及生态系统的未来方向。第一期是蚂蚁的(和俺没关系),采访了蚂蚁开源办公室的负责人边思康、 蚂蚁集团大安全CTO陈亮、Ziqi Liu(没查到中文名)www.interconnects.ai/p/inside-a-chinese-frontier-lab-inclusion文中除了访谈视频,还放出了访谈全文,方便图文用户阅读。蚂蚁的 InclusionAI 实验室自 2025 年 2 月才真正开始发力,受到了 DeepSeek 的极大启发。他们在 8 个月内快速迭代,推出了 Ling(基础)、Ring(推理)和 Ming(多模态)系列模型,包括一个 1T参数的 Ling 2.0 模型。访谈中几位嘉宾分享了训练大规模 MoE(混合专家)模型时的关键技术细节:在预训练阶段,为解决FP8训练因量化/反量化开销导致MFU(模型利用率)低下的问题,他们将MoE层内的“开关门控功能”与“量化操作”进行了融合以提升效率;同时,他们发现必须在旋转嵌入(Rotary Embedding)之前应用QK Norm,才能有效防止FP8训练中的梯度下溢,确保稳定性。在强化学习(RL)阶段,团队介绍了其LPO(语言级策略优化)方法,该方法创新地以“句子”而非token作为策略优化的基本单元,从而带来了更好的训练稳定性和泛化效果。

0 阅读:0
蚁工厂

蚁工厂

感谢大家的关注