9月18日,在上海世博中心举办的2025华为全联接大会上,华为副董事长、轮值董事长徐直军登台发表演讲,首次对外公布了昇腾AI芯片未来三年的产品迭代路线图,同时明确表示2026年一季度发布的新产品将采用华为自研HBM(高带宽内存)。
根据规划,2026年至2028年期间,华为将分阶段推出四款昇腾系列芯片,具体包括:2026年第一季度推出昇腾950PR,该芯片采用华为自研HBM;2026年第四季度推出昇腾950DT;2027年第四季度推出昇腾960芯片;2028年第四季度推出昇腾970。
图源:界面新闻
与英伟达基于通用集成集成电路设计的GPU有所不同,华为昇腾芯片属于专用集成集成电路架构的NPU(Neural Processing Unit, 神经网络处理器),专为处理神经网络计算任务设计。
从2019年开始,华为已经发布多款昇腾910系列芯片,包括910B、910C多款产品,大会晒出的路线图显示910C为今年第一季度最新发布。该系列是基于华为自研的达芬奇架构,专为云端AI训练和推理使用。
从芯片技术指标来看,昇腾910C算力高达800TFLOPS(以行业衡量AI算力规模的半精度浮点数FP16为标准),支持业内标准的FP32/HF32/FP16/BF16/INT8等数据格式,互联带宽784GB/s,HBM容量为128GB、内存带宽为3.2TB/s。
作为对比,英伟达最新Blackwell B300在同等标准下的算力约为3840TFLOPS(B300在FP4标准下算力为15P,1P等于1024T,即15360TTFLOPS,在理想精度无损转换场景下,FP4算力折算成FP16需除以4),配备的是288GBHBM3e,带宽为8TB/s。
2026年将要发布的昇腾950PR/DT微架构将升级为SIMD/SIMT,算力达到1PFLOPS(FP8)/ 2PFLOPS(FP4),支持FP32/HF32/FP16/BF16/FP8/MXFP8 /HiF8/MXFP4/HiF4等数据格式,互联带宽为2TB/s。内存容量及带宽上,昇腾950PR为128GB和1.6TB/s;昇腾950DT为144GB和4TB/s。
徐直军在演讲中指出,由于受美国的制裁,华为不能到台积电去投片,单颗芯片的算力相比英伟达存在差距。但华为“有三十多年联人、联机器”的积累,并在在超节点互联技术上强力投资、实现突破,能够做到万卡级的超节点,从而做到世界上算力最强。
借助超节点技术,走“集群规模化”路线是华为一直发力的方向。超节点可以简单理解为凭借高速总线互联技术,将多个CPU、GPU或NPU加速卡等组成的“小计算单元”连接成一整个超大的计算单元,以集群化、规模化弥补单芯片性能不足,实现算力供给。
此前以昇腾910芯片为基础,华为已经推出了超节点产品。华为今年5月推出的昇腾384超节点即将384张昇腾NPU与192张鲲鹏CPU连接在一起,并在7月举办的世界人工智能大会上线下展出亮相。
在今日的全联接大会上,徐直军还公布了华为最新的超节点产品 Atlas 950 SuperPoD、Atlas 960 SuperPoD超节点,分别支持8192及15488张昇腾卡。
图源:华为
按照他在演讲中展示的对比图,Atlas 950 SuperPoD超节点已超越英伟达将在2027年发布的最大规模超节点NVL576。NVL576是英伟达计划在2027年下半年推出的基于下一代Rubin架构的超大规模AI算力集群系统,包含576张Rubin Ultra GPU。
按照华为披露的计划,Atlas 950 SuperPoD预计今年四季度上市,Atlas 960 SuperPoD计划将在2027年四季度上市。
徐直军演讲中多次强调“算力过去是,未来也将继续是人工智能的关键,更是中国人工智能的关键”。而“基于中国可获得的芯片制造工艺”,华为正在努力打造‘超节点+集群’算力解决方案,以满足持续增长的算力需求。