随着人工智能算力需求呈现爆发式增长,开放数据中心委员会(ODCC)联合三星、中国移动、中国信通院等机构,正式发布了《基于CXL方案的AI应用优化与研究》行业白皮书。该报告通过实测数据与落地案例,系统论证了CXL(Compute Express Link)技术在破解AI训练与推理存储瓶颈方面的突破性价值,为数据中心架构升级提供了技术路线图。
CXL技术基于PCIe 5.0物理层构建,通过内存扩展、内存共享和缓存一致性三大核心能力,正在重塑数据中心架构。报告指出,在大模型时代,GPU显存容量已成为制约模型规模扩展和推理效率的关键因素。以DeepSeek-V2为例,这款拥有2360亿参数的MoE模型,推理阶段至少需要7块H100 GPU,普通硬件设备根本无法满足需求。
针对这一痛点,三星推出的CXL DRAM设备(如CMM-D)通过Type 3模式实现了内存容量的突破性扩展。该设备可将内存容量提升至本地内存的10倍以上,同时延迟远低于SSD,成为理想的内存池化解决方案。在MoE模型优化领域,报告首次提出了基于CXL的MoE卸载框架——MoE offload。该框架通过计算次序优化、I/O分离管理、流水线调度和预测性预取四项核心技术,实现了GPU计算与CXL内存传输的高度重叠。实测数据显示,该方案最高可节省82%的GPU内存占用,在内存减少55%的情况下,性能损失仅31%,显著提升了资源受限环境下的模型部署可行性。
在LLM推理场景中,报告针对KV缓存膨胀问题设计了多层KV缓存系统。该系统利用CXL结合DMA技术,实现了CPU/CXL与GPU间的低延迟通信。通过多进程并行、更大预取窗口和存储缓存重叠等优化手段,系统可在解码阶段高效预取和选择KV缓存。实验表明,相较于传统方法,该方案性能提升达21%,有效弥合了CXL内存与DRAM之间的性能差距。
面向GNN训练场景,报告提出了CMM-D GNN解决方案。针对千亿级节点和边的超大规模图数据,传统SSD存储导致严重I/O瓶颈,而该方案将图结构与特征数据迁移至CXL内存,并结合NVIDIA的UVA统一虚拟寻址技术,实现了非连续特征数据的零拷贝直传。测试数据显示,相较于SSD方案,CMM-D将训练效率提升近4倍;即便与纯DRAM方案相比,也提升了2.5倍,显著缩短了模型训练周期。
这份49页的行业白皮书不仅验证了CXL技术在打破“内存墙”、降低总拥有成本(TCO)、提升能效比方面的巨大潜力,更指出了技术演进方向。随着CXL 3.0等新协议的推进,内存池化、跨节点资源共享将成为现实,推动数据中心从“硬件中心”向“资源中心”转型。对于AI开发者、系统架构师和云服务商而言,布局CXL生态已成为抢占未来竞争制高点的战略选择。