在华为中国合作伙伴大会上,华为正式宣布Atlas 350加速卡正式上市销售。这款加速卡搭载昇腾950PR处理器,标志着华为在去年首次介绍该芯片后,成功将其推向市场。华为昇腾计算业务总裁张迪煊在会上透露,Atlas 350的单卡算力达到英伟达H20的2.87倍,成为国内首款支持FP4低精度推理的产品。其HBM容量为112GB,是H20的1.16倍,多模态生成速度提升60%,内存访问颗粒度从512字节减少至128字节,小算子访存效率提高4倍。
FP4低精度支持是Atlas 350的核心优势之一。观察者网梳理发现,英伟达当前计划在中国销售的H200芯片并不支持原生FP4,仅在其更先进的Blackwell架构中引入该技术。FP4通过降低计算精度换取效率,使700亿参数的模型仅需35GB显存即可单卡运行,推理延迟显著降低,而FP16则需要140GB显存。这一特性使Atlas 350在推理场景中具备显著优势。
在硬件指标方面,Atlas 350的FP4精度算力达1.56P,带宽为1.4TB/s,功耗为600W,是英伟达H20的1.5倍。华为副总裁马海旭介绍,昇腾950系列分为PR和DT两个版本,前者面向预填充和推荐场景,采用自研低成本HBM技术,可大幅降低推理阶段的投资成本。尽管单卡性能与英伟达H20相当,但在FP8/FP16算力及显存带宽上,仍与H200存在差距。
针对大规模训练场景,华为提出超节点战略。在今年的巴展上,华为展示了Atlas 950超节点,支持8192张昇腾950DT卡通过“灵衢”全光互联技术连接。清华大学计算机系教授郑纬民表示,超节点凭借超高带宽、超低时延和内存统一编址等特点,已成为AI基础设施建设的核心方向。该技术已在互联网、电信和制造等行业落地,证明其能有效实现算力的规模化扩展。
技术突破之外,生态建设成为华为的重点。马海旭宣布,华为将于2025年8月5日全面开源昇腾软件,目前CANN等软件已完成架构解耦,安装包从8个拆分为29个,编译效率提升58%。华为还支持三方开源生态,累计为50多个社区和项目贡献650多个关键特性。张迪煊以智谱为例,称其基于昇腾在3个月内完成多模态大模型GLM-Image的训练,该模型登顶全球开源社区Hugging Face的榜单,证明昇腾可训练世界级模型。
面对企业多样化的算力需求,华为推出分级产品。张迪煊介绍,昇腾面向百亿级模型推出A2标卡,内存带宽达业界1.8倍;千亿级模型提供单机服务器,算力为业界2.3倍;万亿级模型采用双机超节点服务器,整机算力达业界3.78倍。华为与伙伴合作推出400多款行业一体机,服务2700多家客户,占据国内一体机市场80%以上份额。
市场预测显示,华为在中国AI加速器市场的份额有望提升。根据Bernstein Research的报告,2026年华为的收入占比预计达50%,英伟达受禁售影响或降至8%,AMD升至12%,海光、寒武纪等企业分别占据8%和9%的份额,其余厂商份额在1%-3%之间。





