有趣，有人说：“为什么你们要蔚来砍掉 2 个 OrinX，而不是其他品牌加 2

有趣，有人说：“为什么你们要蔚来砍掉 2 个 OrinX，而不是其他品牌加 2 个 OrinX？”

很尴尬，看来他们缺乏对芯片最基本的认知，更缺乏对 AI 模型的认知

因为多芯片互联，是要付出代价的

很简单的问题——如果人类靠堆芯片数量就能一直赢，为什么大家还是拼命的做下一代芯片，让集成度更高、晶体管数量暴增？

答案很明显：多芯片互联代价太高了

OrinX 是标准的 SOC，芯片上有 CPU、GPU、NPU......它自己就是一颗完整的“主芯片”

数据扔到 ADAS 域控制器里面，AD 工程师面临的第一个问题就是——我该设定哪颗 OrinX 为主力计算核心？

并不是所有的数据都能拆下来并行计算的，有些东西它就只能在 1 颗芯片上面跑

尤其是对于 ADAS 这样对延迟要求极高的应用

多芯片互联一直都是业界特别头疼的问题，如果有可能，那大家都想把芯片做大，在芯片内部解决多核心的互联问题。

如果芯片局限于工艺，实在没办法做大了，大家也希望通过 Chiplet 架构拆分出来，尽量封装到一个硅片上，而不是多颗芯片通过 PCB 互联

PCB 板间的高速互联也超级恶心，布线就够喝一壶的，各种高频串扰烦不胜烦，远不如硅基晶体管内部自己解决问题

在硅基上做超高频信号，远胜过 PCB电路板

特斯拉 FSD 一开始想的很简单：1 颗运算，1 颗备份；他们也没准备干特别复杂的互联

结果 FSD 架构变革了好几次，算力不够用了，后来重新设计了 2 颗芯片的软件互联

ADAS 算法里面很多数据不能拆，还有一些可以拆

但是你拆完了之后还要搬运，搬运就是芯片-芯片，甚至更复杂的芯片-内存-芯片-内存......

一来一去，搬运数据的过程吃掉了大量的片间互联带宽和内存带宽

在 Transformer 时代，这个问题更加爆炸；因为 T 这个模型不仅吃算力，更加吃带宽

所以才有了我之前的判断——衡量芯片的 AI 能力，第一层是看算力，第二层是看带宽

其实别说多芯片的互联了，就算是 1 颗芯片里面的多核心，都面临着搬运数据的恶心操作；而且核心数越多，单核心能拿到的互联带宽越低

举个例子就是我们的视频剪辑电脑，16核的 CPU 跟 12 核用起来没啥区别，因为 PC 只有双通道内存，16 核芯片上每个核心分到的内存带宽反而变少了，我就是个冤大头

要不然为啥大家能做高单核性能就做高呢？因为很多任务就是只能单核处理啊，你堆核心只能在云服务等极少数场景起作用

而对于桌面端、移动端以及车载端来说，并没有那么夸张的并发需求

在你 1 颗芯片的算力被填满之前，你的带宽就被互联需求吃完了，芯片利用率上不去，等于白买

OrinX 的架构设计其实很久远了，匹配的内存只是 LPDDR，并没有使用 HBM 等吞吐量巨大的高阶内存； NVIDIA 当初对于多芯互联，也不像今天有成熟的 NVLink 高阶版本和软件工具链

老黄当初画了一大堆饼，OrinX 甚至还有加入专用 NPU 计算卡的结构呢，我估计也是因为互联带宽问题噶掉了......

所以单颗 OrinX 就算能达到吹水的 254T 算力，2 颗 OrinX 也绝对达不到 500T 的总和， 4 颗更是远低于 1000T，因为互联卡死了计算效率

就跟你吃烧饼一样，越吃肚子越饱，后面越来越吃不动

但是单颗 OrinX 做 BEV 鸟瞰图还行，运行 occ 占用网络的话，能应付那么巨大的体素计算压力？我表示怀疑

所以小鹏、理想、极越都还是基于 2 颗 OrinX 做的 AD 域控

华为相对比较特殊，MDC 高阶平台并不是 OrinX 这样的一整颗 SOC 做主控，然后多颗 SOC 互联；而是鲲鹏+昇腾的分离式架构，鲲鹏提供 CPU 主控，昇腾提供推理 NPU。

本来这套就是基于服务器改造的方案，考虑过鲲鹏CPU+多颗昇腾NPU的互联，可以用多颗昇腾扩展算力，互联的代价会小一些，当然肯定也存在效率损失

而且蔚来确实对于域控直面的 2 颗 OrinX 一直没想明白，各个部门对利用方向说法都不同

之前他们有个操作，说可以部分车机进程挪到 OrinX 上面去；意思就是单颗 8155 算力有限，但是 4 OrinX 算力相对富裕

如果明年改款上了 8295，这玩意全大核+2 颗 NPU（60T）性能远超 8155，那多余的 2 颗 OrinX 确实没啥用啊，你没用起来啊

如果你还想玩什么花活，为什么不丢给 8295 呢？你反正 1 小屏、1 中屏，8295 也闲的蛋疼啊，虽然 AI 算力不如 OrinX，但是 8295 的 CPU 和 GPU 可强太多了。

泡泡资讯网

有趣，有人说：“为什么你们要蔚来砍掉 2 个 OrinX，而不是其他品牌加 2

热门分类