1、近期行业技术迎来集中更新，OFC 行业大会之后，OCS 光交换技术、蜻蜓拓扑架构、谷歌磁分离架构等新技术陆续落地，成为数据中心升级的关键方向。

2、当下热门的 CXL 高速互联技术，主要分为两种落地模式：柜内存储部署、整柜集中存储部署。企业大力普及 CXL 内存共享方案，核心是为了盘活昂贵的 DDR 内存，集中供给 AI 推理使用，大幅降低整体运营成本。

3、AI 大模型推理架构持续升级，从早期的Prefill 与 Decode 两段分离，进阶为PAF 三段分离；其中谷歌 Rubin 架构，率先实现了 FFN 独立拆分，是这次技术升级的关键突破。老旧的 CPX 架构因为资源搭配不合理、浪费严重，已经基本被市场淘汰，市场占有率近乎归零。

4、大模型不同工作阶段，硬件需求差异极大。Prefill 预处理阶段，特点是高并发、计算量大，还需要超大内存支撑；而不同技术路线，也对应不一样的适用场景。

5、英伟达推出全新硬件方案，把 FFN 运算单独交给 LPU 芯片处理，和谷歌的设计思路保持一致。LPU 依靠可编程数据流架构、板载高速缓存实现运行，但短板明显：自带缓存容量太小，只有 50 兆，承载不了大规模 FFN 运算，只适合 7B–70B 规模的中小型稠密 AI 模型。

6、谷歌主打 CXL 技术路线，优缺点十分鲜明。短板是网络延迟更高、传输带宽更低，实时通信能力偏弱；优势是内存容量几乎不受限制，可轻松做到几十 TB，超长文本对话场景里，关键缓存数据能外置存放，运行延迟稳定不卡顿，非常适合文档总结、批量翻译等大批量、非实时的离线推理任务。

7、头部芯片厂商竞争格局清晰，Marvell 研发的新款芯片，主要对标 Astera Labs，两者形成直接竞争；这款芯片由三星代工生产，不会占用紧张的台积电先进封装产能，它和 TPU 硬件的搭配比例大概为 3:1，并且可以根据需求动态调整。

8、谷歌自研硬件性价比优势突出，自研芯片成本比英伟达便宜一半以上，不靠高利润溢价；谷歌内部 AI 训练工作，全部统一使用自家 TPU 芯片，仅在云端租赁业务中，少量搭配英伟达显卡对外提供服务。

9、实时 AI 对话、人机交互这类场景，对响应速度要求极高，普遍需要把延迟控制在 300 毫秒以内，高端场景甚至要求微秒级反应；而采用长距离独立机柜布局时，可以直接复用现有的 OCS 网络和交换机，减少改造投入。

10、行业传闻 2028 年 TPU 出货 3000 万片，该数据统计口径宽泛，包含各类设备版本，整体误差和波动很大，参考价值有限。

现场问答

问：OFC 大会后出现了哪些技术变化？

答：OCS 相关技术、拓扑蜻蜓架构、谷歌磁分离架构等在近一两个月内出现。

（OFC 全称是 Optical Fiber Communication Conference and Exhibition（光纤通信大会及展览会），也叫光网络与通信研讨会及展览会，是全球光通信领域规模最大、影响力最高的行业盛会，被称为光通信行业的 “风向标” 与 “定调会”。）

问：CXL 的两种主要方案是什么？

答：一种是整柜存储，一种是柜内存储。

（CXL 全称 Compute Express Link（计算快速链路），你可以把它理解为PCIe 协议的 “超级进化版”，一种专为高性能计算设计的、带缓存一致性的高速互联标准，也是当前 AI 数据中心内存池化、资源解耦的核心技术之一。）

问：Marvell 设计的芯片可能与谁竞争？

答：可能与 Astera Labs 形成竞争。

问：Marvell 芯片与 TPU 的配比是多少？

答：与 TPU 的配比约为 3:1，且为动态调整。

问：28 年 TPU 出货传闻的数据口径是什么？

答：传闻出货 3000 万片 TPU 包含所有统计口径，数据波动幅度较大。

问：Marvell 芯片由谁流片？是否占用台积电产能？

答：由三星流片，不会占用台积电先进封装产能。

问：长距离独立机柜方案可复用什么网络？

答：可复用 OCS 网络与 OCS 交换机。

问：为什么企业要采用 CXL 内存池化方案？

答：为了将成本较高的传统 DDR 内存有效用于推理场景，降低整体成本。

问：Rubin 架构实现了什么功能分离？

答：实现了 FFN 分离，相比以往的 Prefill 与 Decode 分离模式完成了技术演进。

问：CPX 方案目前的状态如何？

答：该方案目前已基本淘汰，占比从 20% 降至几乎为零。

问：Prefill 阶段的计算特点是什么？

答：高并发、计算深度大，且对内存容量要求极高。

问：CPX 方案被淘汰的核心原因是什么？

答：资源配比存在缺陷，无法匹配模型场景需求，造成资源浪费。

问：NV 新方案中 FFN 计算由什么芯片承载？

答：由 LPU 芯片承载，该思路与谷歌方案一致。

问：LPU 方案的核心技术是什么？

答：可编程软件定义数据流架构，依托大容量片上 SRAM 完成静态图编译。

问：LPU 方案的主要缺陷是什么？

答：片上 SRAM 存储容量仅 50 兆，无法满足 FFN 计算的海量存储需求。

问：谷歌 CXL 方案相比 LPU 方案在通信性能上如何？

答：延迟比英伟达方案高一个数量级，带宽低一个数量级，通信性能较弱。

问：谷歌 CXL 方案在存储容量上有何优势？

答：存储容量几乎无上限，可实现数十 TB 级系统容量。

问：LPU 方案适配哪些模型规模？

答：适配 7B 至 70B 的稠密小模型。

问：谷歌方案适配哪些推理类型？

答：适配离线批处理、异步任务，如文档摘要、批量翻译等吞吐量优先的场景。

问：谷歌方案在超长上下文场景中有何优势？

答：支持大上下文长度，KV Cache 可直接驻留在 CXL 内存中，延迟稳定无抖动。

问：谷歌自研芯片的成本如何？

答：成本比英伟达低至少一半，无高额毛利，性价比更高。

问：谷歌 TPU 主要用于什么任务？

答：训练任务全部基于 TPU 完成，仅谷歌云服务中少量配备英伟达显卡供客户租赁。

问：实时交互场景对延迟的要求是什么？

答：通常要求延迟低于 300 毫秒，甚至需要毫秒级或微秒级响应。

证券期货业务经营许可证监会编号: ZX0120

声明：本站所有文章、行情数据仅供参考，投资者据此操作，风险自担！本站以及其合作机构不为本页面提供的信息错误、残缺、延时或因依靠此信息所采取的任何行动负责。市场有风险，投资需谨慎

唯真财经

1、近期行业技术迎来集中更新，OFC 行业大会之后，OCS 光交换技术、蜻蜓拓扑架构、谷歌磁分离架构等新技术陆续落地，成为数据中心升级的关键方向。