泡泡资讯网

【国金计算机&科技】DeepSeek-V4发布:百万上下文普惠,国产模芯协同闭环

【国金计算机&科技】DeepSeek-V4发布:百万上下文普惠,国产模芯协同闭环成形

【两款MoE旗舰齐发,能力全面跃升】DeepSeek今日发布V4系列两款MoE模型。旗舰版V4-Pro拥有1.6T总参数、49B激活参数;轻量版V4-Flash为284B总参数、13B激活参数。两者均原生支持100万token超长上下文,API同步上线。能力层面,V4-Pro在知识、推理、Agent三个维度均有显著提升:世界知识评测中大幅领先其他开源模型;数学与代码推理达到顶级闭源模型水平,Codeforces竞赛评分3206分;Agent能力超越Claude Sonnet 4.5,接近Opus 4.5水平;

定价上,V4-Flash输出仅2元/M token,V4-Pro输出24元/M token,长文档处理、长链路Agent等场景的规模化落地门槛显著降低。官方明确表示待昇腾950超节点批量上市后价格将大幅下调。

【技术突破:压缩注意力架构重构】针对"长文本越长越贵"的问题。V4设计了两种新型注意力机制(CSA+HCA):先把文字"压缩打包",再只挑重要的包细看,不重要的粗略扫一眼。效果是在100万token场景下,计算量降至老版本V3.2的27%,显存占用降至10%。

V4还引入了更稳定的残差连接结构(mHC)和新优化器Muon加速训练收敛;后训练阶段采用"先分领域训专家、再蒸馏合一"的流程,在不增加推理成本的前提下,将数学、代码、Agent等多领域能力融入同一个模型。

【国产模型+国产算力技术栈走向闭环】昇腾今日宣布A2、A3及950全系列产品适配DeepSeek V4。为便于用户快速微调,提供了基于昇腾A3集群的【训练】参考实现。。此外,DeepSeek官方定价备注原文明确:Pro服务吞吐当前受限于高端算力,待昇腾950超节点批量上市后价格将大幅下调。寒武纪于模型发布当日完成V4-Flash与V4-Pro的Day 0适配,针对V4新架构(CSA稀疏注意力、mHC模块)完成专项Kernel优化。头部模型首发即获国产芯片同步适配,软件生态成熟度持续验证。