沃资讯
科技 财经 汽车 游戏 数码 资讯 商业

AI基建新战场:OpenAI与智谱同月出招,网络架构优化成效率竞争关键

2026-05-22来源:快讯编辑:瑞雪

在人工智能基础设施建设的赛道上,一场围绕网络效率的变革正在悄然展开。当全球AI企业还在比拼GPU数量时,中美两国科研团队已将目光投向更深层的系统优化——通过重构网络架构提升集群整体效能。这一转变标志着AI基建从"堆卡竞赛"进入"效率时代",而中国科研团队提出的ZCube架构与OpenAI的MRC协议,成为这一转型的标志性成果。

传统AI集群采用分层组网方式,数据传输需经过多层交换机中转,这种设计在处理不均匀流量时极易形成局部拥塞。以大模型推理场景为例,负责理解问题的GPU与生成回答的GPU分属不同节点,中间需要频繁传输KV Cache数据。这种非对称传输模式导致部分交换机长期过载,而其他链路利用率不足,形成"卡等数据"的尴尬局面。清华大学团队通过实验发现,在保持GPU配置不变的情况下,将网络带宽从100Gbps提升至200Gbps,可使推理吞吐量提升19%,首Token时延降低22%,充分暴露了网络瓶颈对算力释放的制约。

中国科研团队提出的ZCube架构通过"扁平化"设计破解了这一难题。该架构取消传统分层结构,将底层交换机分为两组并实现完全互联,每张GPU同时连接两组交换机。这种设计使任意两张GPU之间只需经过两台交换机即可通信,路径长度缩短50%以上。在千卡级GLM-5.1推理集群的实测中,ZCube使GPU平均推理吞吐提升15%,首Token时延的99分位值降低40.6%,同时将交换机与光模块成本削减三分之一。按万卡规模估算,仅硬件成本就可节省2.1亿至6.4亿元。

与ZCube侧重架构创新不同,OpenAI推出的MRC协议选择在现有网络基础上进行协议层优化。该协议针对训练场景中同步预训练的特殊需求,通过多路径并发传输和智能路由技术,实现微秒级故障绕行。在由英伟达GB200芯片组成的超算集群中,MRC已成功支撑多个前沿模型的训练任务,并通过Open Compute Project向全行业开放技术规范。这两种技术路线虽路径不同,但都指向同一个结论:当GPU数量达到临界点后,网络效率将成为决定集群性能的关键因素。

这场效率革命的背后,折射出全球AI产业面临的共同挑战。在芯片供应受限的背景下,中国AI企业通过"国产芯片+架构优化"的组合策略,探索出独特的突围路径。ZCube架构不依赖特定硬件生态的特性,使其能兼容华为昇腾、寒武纪、摩尔线程等多家国产芯片平台。这种技术路线选择,既是对现实约束的应对,也蕴含着产业升级的深层逻辑——当算力增长不再单纯依赖芯片迭代时,系统级优化将成为新的竞争焦点。

从Clos架构到ZCube,从单路径传输到MRC协议,AI集群的网络设计正在经历根本性变革。这些创新不仅解决了当下的效率瓶颈,更为未来十万卡级超大规模集群的构建奠定了技术基础。当全球AI基建进入深水区,系统级优化能力正在重新定义产业竞争规则,而中国科研团队在这场变革中展现出的工程化能力,已成为不可忽视的技术力量。

国产工业网关崛起:技术迭代助力工业物联网,本土设备引领数字化新篇
性能成熟的工业网关,可广泛适配众多主流工业应用场景,贴合当下各行业数字化升级需求,无论是电力自动化管控、新能源储能系统搭建,还是轨道交通配套使用、智能制造厂区改造等场景,都能稳定投入日常使用,适配多元化行业…

2026-05-22

源仪电子逆变器PCBA测试系统:精准检测,高效赋能光伏储能品质升级
随着光伏储能行业飞速发展,逆变器已经成为新能源发电、家庭储能、工商业储能项目中不可或缺的关键设备,而逆变器整机品质好坏,完全取决于内部 PCBA主控电路板的各项电气性能与安全保护性能。 深圳市源仪电子有限公…

2026-05-21