华为Atlas 350加速卡上市：国内首推FP4低精度推理，算力碾压英伟达H20-数码-沃资讯

在华为中国合作伙伴大会上，华为正式宣布Atlas 350加速卡正式上市销售。这款加速卡搭载昇腾950PR处理器，标志着华为在去年首次介绍该芯片后，成功将其推向市场。华为昇腾计算业务总裁张迪煊在会上透露，Atlas 350的单卡算力达到英伟达H20的2.87倍，成为国内首款支持FP4低精度推理的产品。其HBM容量为112GB，是H20的1.16倍，多模态生成速度提升60%，内存访问颗粒度从512字节减少至128字节，小算子访存效率提高4倍。

FP4低精度支持是Atlas 350的核心优势之一。观察者网梳理发现，英伟达当前计划在中国销售的H200芯片并不支持原生FP4，仅在其更先进的Blackwell架构中引入该技术。FP4通过降低计算精度换取效率，使700亿参数的模型仅需35GB显存即可单卡运行，推理延迟显著降低，而FP16则需要140GB显存。这一特性使Atlas 350在推理场景中具备显著优势。

在硬件指标方面，Atlas 350的FP4精度算力达1.56P，带宽为1.4TB/s，功耗为600W，是英伟达H20的1.5倍。华为副总裁马海旭介绍，昇腾950系列分为PR和DT两个版本，前者面向预填充和推荐场景，采用自研低成本HBM技术，可大幅降低推理阶段的投资成本。尽管单卡性能与英伟达H20相当，但在FP8/FP16算力及显存带宽上，仍与H200存在差距。

针对大规模训练场景，华为提出超节点战略。在今年的巴展上，华为展示了Atlas 950超节点，支持8192张昇腾950DT卡通过“灵衢”全光互联技术连接。清华大学计算机系教授郑纬民表示，超节点凭借超高带宽、超低时延和内存统一编址等特点，已成为AI基础设施建设的核心方向。该技术已在互联网、电信和制造等行业落地，证明其能有效实现算力的规模化扩展。

技术突破之外，生态建设成为华为的重点。马海旭宣布，华为将于2025年8月5日全面开源昇腾软件，目前CANN等软件已完成架构解耦，安装包从8个拆分为29个，编译效率提升58%。华为还支持三方开源生态，累计为50多个社区和项目贡献650多个关键特性。张迪煊以智谱为例，称其基于昇腾在3个月内完成多模态大模型GLM-Image的训练，该模型登顶全球开源社区Hugging Face的榜单，证明昇腾可训练世界级模型。

面对企业多样化的算力需求，华为推出分级产品。张迪煊介绍，昇腾面向百亿级模型推出A2标卡，内存带宽达业界1.8倍；千亿级模型提供单机服务器，算力为业界2.3倍；万亿级模型采用双机超节点服务器，整机算力达业界3.78倍。华为与伙伴合作推出400多款行业一体机，服务2700多家客户，占据国内一体机市场80%以上份额。

市场预测显示，华为在中国AI加速器市场的份额有望提升。根据Bernstein Research的报告，2026年华为的收入占比预计达50%，英伟达受禁售影响或降至8%，AMD升至12%，海光、寒武纪等企业分别占据8%和9%的份额，其余厂商份额在1%-3%之间。