近日,中国移动携手英特尔、博通等多家行业领军企业,共同发布《开放解构超节点(ODS)系统架构技术白皮书(1.0 版)》。该白皮书针对当前大模型发展对AI基础设施提出的严苛要求,提出了一套创新的开放解构超节点架构解决方案,旨在为下一代大模型建设提供标准化技术参考。
白皮书指出,随着MoE大模型规模不断扩大,AI基础设施面临高带宽、低延迟的双重挑战。现有超节点技术普遍存在硬件异构、厂商锁定、适配成本高、扩展性受限、运维复杂等痛点。为此,ODS系统架构提出五大核心设计原则:网络协议完全开放、硬件架构全面解构、系统规模弹性扩展、散热方案灵活配置、互联效率全面优化。这些原则通过打破厂商绑定、提升系统兼容性,为AI基础设施的灵活部署奠定基础。
在系统架构层面,ODS创新性地推出基础型与级联型两种模式。基础型采用单级交换架构,通过一级交换全对等互连构建高带宽域,支持液冷模式下256卡、风冷模式下128卡的集群规模。级联型则引入第二级互联层,推荐采用OCS光电路交换机减少光电转换损耗,最大可扩展至16384卡集群,满足超大规模模型训练需求。这种分层设计使系统既能适配小型研发场景,也能支撑大型商业部署。
核心组件设计方面,白皮书制定了详细的技术规范。计算节点区分风冷与液冷方案,明确GPU选型标准、单板设计要求、电源配置规范及散热设计准则。交换节点同样覆盖两种散热方案,对交换芯片选型、接口规格、内部布局等提出量化标准。互联方案遵循"铜缆优先"原则,推荐AEC铜缆用于计算与交换节点短距离互联,光互联方案(FRO/LPO/LRO/CPO)则适用于交换节点间长距离传输,并系统分析了各方案的性能表现与适用场景。
软件架构方面,ODS采用分层解耦设计理念,构建起模块化的软件栈体系。基础设施层面,白皮书对机柜尺寸、供电配置、布线方案、散热系统等提出标准化要求,并创新性地提出机柜统一管理方案,实现资产统计、故障诊断、电源控制等智能化功能。这种标准化与模块化的设计思路,显著降低了系统部署成本与运维复杂度,为AI基础设施的规模化应用扫清障碍。


