美国不给,我们就自己造,不知道看到这个消息,黄仁勋还能不能笑出来!
AI 圈这么多年,英伟达CUDA一直是绕不开的门槛,梁文锋带着DeepSeek团队硬啃五个月,把万亿参数模型的底层代码全从CUDA迁到华为CANN,直接打破行业默认规则。
这事得从2026年4月24日说起,当天DeepSeek V4正式发布并开源,外界第一眼关注的是它百万级上下文窗口,可业内人都清楚,真正的重头戏是它彻底脱离英伟达CUDA生态,全面适配华为昇腾950PR芯片。
梁文锋作为DeepSeek创始人,没搞小打小闹的适配,直接带着139人、平均年龄不到30岁的团队,从2025年底就开始闷头攻坚,足足花了五个月,完成这场看似不可能的迁移。
可能有人不懂这事儿的分量,打个比方,就像一辆跑了十几年的豪车,发动机全是定制款,现在要把发动机整个换掉,还得保证性能更强、跑得更快。
CUDA是英伟达自研的编程框架,垄断AI训练推理十几年,几乎所有主流大模型都围着它做优化。而华为CANN是国产架构,两边的算子库、通信逻辑、内存管理完全不一样,迁移不是改几行代码,而是要重写200多个核心算子,做十万级测试用例,保证每一步计算精度完全对齐。
这五个月里,团队遇到的难题一个接一个。CUDA有成熟的NCCL通信库,适配英伟达芯片的NVLink高速互联,而昇腾用的是HCCL库,带宽和延迟特性不同,通信拓扑得重新优化。
还有内存管理,英伟达GPU和昇腾NPU的内存层次结构不一样,模型的内存分配策略也得全部重写。最费劲的是精度对齐,差一个小数点都不行,工程师们反复测试调试,硬生生把这些硬骨头全啃了下来。
迁移后的结果,确实让人意外。第三方评测显示,DeepSeek V4在昇腾950PR上的推理速度比初期提升35倍,能耗降低40%,单卡推理性能是英伟达H20芯片的2.87倍。
更关键的是,昇腾芯片国内供货稳定,成本比英伟达低不少,能让大模型推理成本大幅下降。这事也让英伟达坐不住了,英伟达CEO黄仁勋早前在播客里提到,要是DeepSeek把新模型适配到华为芯片上,对他们来说会是可怕的结果。
梁文锋一直是个敢走弯路的人,之前做量化投资,靠AI技术把幻方量化做成千亿规模,跨界做AI后,DeepSeek V3用557万美元就训练出对标GPT-4的模型,成本只有OpenAI的零头。
这次迁移,也不是一时冲动,一方面是英伟达对华出口管制越来越严,H100、H200芯片采购周期拉长到3-6个月,供应链不稳定;另一方面,也是想走出一条国产AI自主的路,证明不用依赖英伟达,国产算力也能撑起顶级大模型。
现在行业里不少人都在盯着这事,阿里、字节、腾讯这些巨头,已经开始预订华为昇腾芯片,国产AI生态的闭环正在慢慢形成。
梁文锋团队的这次突破,不只是一款模型的技术迁移,更像是给国产AI行业打了一剂强心针,让大家看到摆脱国外技术卡脖子的可能性。
大模型行业发展到现在,一直被国外算力和生态牵着走,很多企业习惯跟着别人的路子走,不敢轻易尝试新路径。
梁文锋带着团队用五个月的埋头苦干,打破了CUDA不可替代的神话,也证明了中国技术团队有能力做底层创新,不只是跟风模仿。
这种敢闯敢拼的劲头,不管是对AI行业,还是对其他 tech 领域,都有很好的借鉴意义。同时这件事也提醒我们,核心技术自主从来不是一句空话,需要耐得住寂寞,沉下心来攻坚,才能真正掌握主动权。
以上是小编个人看法,如果您也认同,麻烦点赞支持!有更好的见解也欢迎在评论区留言,方便大家一同探讨。
