泡泡资讯网

有趣,有人说:“为什么你们要蔚来砍掉 2 个 OrinX,而不是其他品牌加 2

有趣,有人说:“为什么你们要蔚来砍掉 2 个 OrinX,而不是其他品牌加 2 个 OrinX?”

很尴尬,看来他们缺乏对芯片最基本的认知,更缺乏对 AI 模型的认知

因为多芯片互联,是要付出代价的

很简单的问题——如果人类靠堆芯片数量就能一直赢,为什么大家还是拼命的做下一代芯片,让集成度更高、晶体管数量暴增?

答案很明显:多芯片互联代价太高了

OrinX 是标准的 SOC,芯片上有 CPU、GPU、NPU......它自己就是一颗完整的“主芯片”

数据扔到 ADAS 域控制器里面,AD 工程师面临的第一个问题就是——我该设定哪颗 OrinX 为主力计算核心?

并不是所有的数据都能拆下来并行计算的,有些东西它就只能在 1 颗芯片上面跑

尤其是对于 ADAS 这样对延迟要求极高的应用

多芯片互联一直都是业界特别头疼的问题,如果有可能,那大家都想把芯片做大,在芯片内部解决多核心的互联问题。

如果芯片局限于工艺,实在没办法做大了,大家也希望通过 Chiplet 架构拆分出来,尽量封装到一个硅片上,而不是多颗芯片通过 PCB 互联

PCB 板间的高速互联也超级恶心,布线就够喝一壶的,各种高频串扰烦不胜烦,远不如硅基晶体管内部自己解决问题

在硅基上做超高频信号,远胜过 PCB电路板

特斯拉 FSD 一开始想的很简单:1 颗运算,1 颗备份;他们也没准备干特别复杂的互联

结果 FSD 架构变革了好几次,算力不够用了,后来重新设计了 2 颗芯片的软件互联

ADAS 算法里面很多数据不能拆,还有一些可以拆

但是你拆完了之后还要搬运,搬运就是芯片-芯片,甚至更复杂的芯片-内存-芯片-内存......

一来一去,搬运数据的过程吃掉了大量的片间互联带宽和内存带宽

在 Transformer 时代,这个问题更加爆炸;因为 T 这个模型不仅吃算力,更加吃带宽

所以才有了我之前的判断——衡量芯片的 AI 能力,第一层是看算力,第二层是看带宽

其实别说多芯片的互联了,就算是 1 颗芯片里面的多核心,都面临着搬运数据的恶心操作;而且核心数越多,单核心能拿到的互联带宽越低

举个例子就是我们的视频剪辑电脑,16核的 CPU 跟 12 核用起来没啥区别,因为 PC 只有双通道内存,16 核芯片上每个核心分到的内存带宽反而变少了,我就是个冤大头

要不然为啥大家能做高单核性能就做高呢?因为很多任务就是只能单核处理啊,你堆核心只能在云服务等极少数场景起作用

而对于桌面端、移动端以及车载端来说,并没有那么夸张的并发需求

在你 1 颗芯片的算力被填满之前,你的带宽就被互联需求吃完了,芯片利用率上不去,等于白买

OrinX 的架构设计其实很久远了,匹配的内存只是 LPDDR,并没有使用 HBM 等吞吐量巨大的 高阶内存; NVIDIA 当初对于多芯互联,也不像今天有成熟的 NVLink 高阶版本和软件工具链

老黄当初画了一大堆饼,OrinX 甚至还有加入专用 NPU 计算卡的结构呢,我估计也是因为互联带宽问题噶掉了......

所以单颗 OrinX 就算能达到吹水的 254T 算力,2 颗 OrinX 也绝对达不到 500T 的总和, 4 颗更是远低于 1000T,因为互联卡死了计算效率

就跟你吃烧饼一样,越吃肚子越饱,后面越来越吃不动

但是单颗 OrinX 做 BEV 鸟瞰图还行,运行 occ 占用网络的话,能应付那么巨大的体素计算压力?我表示怀疑

所以小鹏、理想、极越都还是基于 2 颗 OrinX 做的 AD 域控

华为相对比较特殊,MDC 高阶平台并不是 OrinX 这样的一整颗 SOC 做主控,然后多颗 SOC 互联;而是鲲鹏+昇腾的分离式架构,鲲鹏提供 CPU 主控,昇腾提供推理 NPU。

本来这套就是基于服务器改造的方案,考虑过鲲鹏CPU+多颗昇腾NPU的互联,可以用多颗昇腾扩展算力,互联的代价会小一些,当然肯定也存在效率损失

而且蔚来确实对于域控直面的 2 颗 OrinX 一直没想明白,各个部门对利用方向说法都不同

之前他们有个操作,说可以部分车机进程挪到 OrinX 上面去;意思就是单颗 8155 算力有限,但是 4 OrinX 算力相对富裕

如果明年改款上了 8295,这玩意全大核+2 颗 NPU(60T)性能远超 8155,那多余的 2 颗 OrinX 确实没啥用啊,你没用起来啊

如果你还想玩什么花活,为什么不丢给 8295 呢?你反正 1 小屏、1 中屏,8295 也闲的蛋疼啊,虽然 AI 算力不如 OrinX,但是 8295 的 CPU 和 GPU 可强太多了。