沃资讯
科技 财经 汽车 游戏 数码 资讯 商业

从万卡到高效协同:中科曙光“存算传一体化”引领AI集群新跨越

2026-03-21来源:快讯编辑:瑞雪

在全球人工智能竞争日益白热化的当下,AI基础设施的协同效率已成为产业界关注的焦点。Gartner预测,到2026年全球AI总支出将突破2.52万亿美元,其中基础设施支出增长率高达49%。随着AI大模型参数规模突破万亿级、算力集群向万卡甚至十万卡级别演进,用户对算力的迫切需求与集群利用率低下之间的矛盾愈发突出,如何提升数据在计算、存储和网络间的流转效率,成为破解这一难题的关键。

中科曙光近日推出的全栈自研400G无损高速网络scaleFabric,标志着国产AI基础设施迈入紧耦合、强协同的新阶段。该方案从核心IP、芯片到交换机、驱动软件均实现自主可控,构建起完整的硬件-软件技术体系。与之配套的"超级隧道"技术更通过智能化调度,为数据传输开辟专属通道,有效解决网络拥堵问题。曙光信息产业(北京)有限公司分布式存储产品部总经理石静指出:"当AI集群规模突破万卡门槛,网络性能已成为影响整体效率的核心变量。"

传统架构下,计算、存储与网络间的资源分配采用静态模式,难以适应AI业务爆发式增长的需求。以推理任务为例,其小IO随机吞吐特性与预训练阶段的海量顺序读取需求截然不同,静态资源分配极易形成性能瓶颈。"超级隧道"技术通过硬件层独享RDMA连接与PCIe通道设计,结合软件层资源动态绑定机制,使内存分配可随流量变化自动调整。这种软硬件协同优化使数据传输效率提升30%以上,在某气象模拟项目中实现应用性能翻倍。

国家超算互联网核心节点今年2月上线的3套scaleX万卡集群,验证了这套方案的实战价值。该集群从交换机上电到业务上线仅用36小时,近一年稳定运行中完成超10万个作业,在蛋白质研究等场景将效率提升3-6个数量级。国内主流大模型厂商的测试显示,其预训练数据准备、训练Checkpoint及推理全链路均获得高性能支撑,真正实现"一套存储支撑全业务流"。

这套国产化方案的突破意义尤为显著。此前国内高性能网络领域长期依赖国外封闭方案或兼容性不足的传统以太网,scaleFabric与超级隧道技术的结合,首次构建起完整的自主技术闭环。石静强调:"全栈自研战略使我们在硬件国产化组件与软件完整源代码基础上,实现了基础架构的完全自主可控。"这种技术自主性为应对智能体涌现等新趋势提供了坚实保障,推动中国AI产业向更深层次发展。