唯真财经

1、近期行业技术迎来集中更新,OFC 行业大会之后,OCS 光交换技术、蜻蜓拓扑架构、谷歌磁分离架构等新技术陆续落地,成为数据中心升级的关键方向。

2、当下热门的 CXL 高速互联技术,主要分为两种落地模式:柜内存储部署、整柜集中存储部署。企业大力普及 CXL 内存共享方案,核心是为了盘活昂贵的 DDR 内存,集中供给 AI 推理使用,大幅降低整体运营成本。


3、AI 大模型推理架构持续升级,从早期的Prefill 与 Decode 两段分离,进阶为PAF 三段分离;其中谷歌 Rubin 架构,率先实现了 FFN 独立拆分,是这次技术升级的关键突破。老旧的 CPX 架构因为资源搭配不合理、浪费严重,已经基本被市场淘汰,市场占有率近乎归零。


4、大模型不同工作阶段,硬件需求差异极大。Prefill 预处理阶段,特点是高并发、计算量大,还需要超大内存支撑;而不同技术路线,也对应不一样的适用场景。


5、英伟达推出全新硬件方案,把 FFN 运算单独交给 LPU 芯片处理,和谷歌的设计思路保持一致。LPU 依靠可编程数据流架构、板载高速缓存实现运行,但短板明显:自带缓存容量太小,只有 50 兆,承载不了大规模 FFN 运算,只适合 7B–70B 规模的中小型稠密 AI 模型。


6、谷歌主打 CXL 技术路线,优缺点十分鲜明。短板是网络延迟更高、传输带宽更低,实时通信能力偏弱;优势是内存容量几乎不受限制,可轻松做到几十 TB,超长文本对话场景里,关键缓存数据能外置存放,运行延迟稳定不卡顿,非常适合文档总结、批量翻译等大批量、非实时的离线推理任务。


7、头部芯片厂商竞争格局清晰,Marvell 研发的新款芯片,主要对标 Astera Labs,两者形成直接竞争;这款芯片由三星代工生产,不会占用紧张的台积电先进封装产能,它和 TPU 硬件的搭配比例大概为 3:1,并且可以根据需求动态调整。


8、谷歌自研硬件性价比优势突出,自研芯片成本比英伟达便宜一半以上,不靠高利润溢价;谷歌内部 AI 训练工作,全部统一使用自家 TPU 芯片,仅在云端租赁业务中,少量搭配英伟达显卡对外提供服务。


9、实时 AI 对话、人机交互这类场景,对响应速度要求极高,普遍需要把延迟控制在 300 毫秒以内,高端场景甚至要求微秒级反应;而采用长距离独立机柜布局时,可以直接复用现有的 OCS 网络和交换机,减少改造投入。


10、行业传闻 2028 年 TPU 出货 3000 万片,该数据统计口径宽泛,包含各类设备版本,整体误差和波动很大,参考价值有限。


现场问答

:OFC 大会后出现了哪些技术变化?

:OCS 相关技术、拓扑蜻蜓架构、谷歌磁分离架构等在近一两个月内出现。

(OFC 全称是 Optical Fiber Communication Conference and Exhibition(光纤通信大会及展览会),也叫光网络与通信研讨会及展览会,是全球光通信领域规模最大、影响力最高的行业盛会,被称为光通信行业的 “风向标” 与 “定调会”。)


:CXL 的两种主要方案是什么?

:一种是整柜存储,一种是柜内存储。

(CXL 全称 Compute Express Link(计算快速链路),你可以把它理解为PCIe 协议的 “超级进化版”,一种专为高性能计算设计的、带缓存一致性的高速互联标准,也是当前 AI 数据中心内存池化、资源解耦的核心技术之一。)


:Marvell 设计的芯片可能与谁竞争?

:可能与 Astera Labs 形成竞争。


:Marvell 芯片与 TPU 的配比是多少?

:与 TPU 的配比约为 3:1,且为动态调整。


:28 年 TPU 出货传闻的数据口径是什么?

:传闻出货 3000 万片 TPU 包含所有统计口径,数据波动幅度较大。


:Marvell 芯片由谁流片?是否占用台积电产能?

:由三星流片,不会占用台积电先进封装产能。


:长距离独立机柜方案可复用什么网络?

:可复用 OCS 网络与 OCS 交换机。


:为什么企业要采用 CXL 内存池化方案?

:为了将成本较高的传统 DDR 内存有效用于推理场景,降低整体成本。


:Rubin 架构实现了什么功能分离?

:实现了 FFN 分离,相比以往的 Prefill 与 Decode 分离模式完成了技术演进。


:CPX 方案目前的状态如何?

:该方案目前已基本淘汰,占比从 20% 降至几乎为零。


:Prefill 阶段的计算特点是什么?

:高并发、计算深度大,且对内存容量要求极高。


:CPX 方案被淘汰的核心原因是什么?

:资源配比存在缺陷,无法匹配模型场景需求,造成资源浪费。


:NV 新方案中 FFN 计算由什么芯片承载?

:由 LPU 芯片承载,该思路与谷歌方案一致。


:LPU 方案的核心技术是什么?

:可编程软件定义数据流架构,依托大容量片上 SRAM 完成静态图编译。


:LPU 方案的主要缺陷是什么?

:片上 SRAM 存储容量仅 50 兆,无法满足 FFN 计算的海量存储需求。


:谷歌 CXL 方案相比 LPU 方案在通信性能上如何?

:延迟比英伟达方案高一个数量级,带宽低一个数量级,通信性能较弱。


:谷歌 CXL 方案在存储容量上有何优势?

:存储容量几乎无上限,可实现数十 TB 级系统容量。


:LPU 方案适配哪些模型规模?

:适配 7B 至 70B 的稠密小模型。


:谷歌方案适配哪些推理类型?

:适配离线批处理、异步任务,如文档摘要、批量翻译等吞吐量优先的场景。


:谷歌方案在超长上下文场景中有何优势?

:支持大上下文长度,KV Cache 可直接驻留在 CXL 内存中,延迟稳定无抖动。


:谷歌自研芯片的成本如何?

:成本比英伟达低至少一半,无高额毛利,性价比更高。


:谷歌 TPU 主要用于什么任务?

:训练任务全部基于 TPU 完成,仅谷歌云服务中少量配备英伟达显卡供客户租赁。


:实时交互场景对延迟的要求是什么?

:通常要求延迟低于 300 毫秒,甚至需要毫秒级或微秒级响应。