9307 字
47 分钟
2026年全球AI芯片全景调研:从NVIDIA Rubin到国产昇腾950PR

注意: 本文所有数据均来源于各厂商官方发布、技术白皮书、MLPerf等独立基准测试及行业研报,截止日期为2026年5月。文中所述性能均指理论峰值,实际吞吐量受模型架构、软件栈优化、集群规模等多因素影响。除非特别标注,算力数据均为稠密(Dense)性能。

目录#

  1. 引言
  2. 国际厂商
  3. 国产厂商
  4. 综合对比总表
  5. 超节点与集群方案对比
  6. 软件生态对比
  7. 实际部署验证
  8. 结论与展望

引言#

2025-2026年是AI芯片产业剧烈变革的两年。NVIDIA凭借Blackwell Ultra和Vera Rubin继续领跑,但AMD的CDNA 4/MI355X在推理性价比上首次实质性逼近;Google TPU v7 Ironwood以42.5 EFLOPS的超大规模集群彰显自研芯片的威力;国产阵营中华为昇腾950PR承载了DeepSeek V4脱离CUDA的历史性突破,阿里真武M890、寒武纪思元690、摩尔线程MTT S5000等纷纷进入大规模商用阶段。

本文试图从矩阵算力(各精度Dense/Sparse)向量算力HBM带宽与容量节点内通信带宽PCIe接口硬件架构/编程模型实际部署可用性七个维度,对20+家厂商的40+款芯片进行系统性调研。


国际厂商#

NVIDIA#

NVIDIA当前产品线覆盖Hopper(H100/H200)、Blackwell(B200/GB200)、Blackwell Ultra(B300/GB300)和2026年下半年的Vera Rubin四代架构。

Hopper架构:H100 / H200#

GH100芯片基于台积电4N定制工艺,800亿晶体管,814 mm² die面积。

参数H100 SXM (700W)H100 PCIe (350W)H200 SXM (700W)
SM数量132 / 144(完整)114132
CUDA Core (FP32)16,89614,59216,896
Tensor Core (第4代)528456528
Transformer Engine第1代 (FP8)
FP64 Vector34 TFLOPS26 TFLOPS34 TFLOPS
FP32 Vector67 TFLOPS51 TFLOPS67 TFLOPS
FP64 Tensor Dense67 TFLOPS51 TFLOPS67 TFLOPS
TF32 Tensor Dense494 TFLOPS378 TFLOPS494 TFLOPS
TF32 Tensor Sparse (2:4)989 TFLOPS756 TFLOPS989 TFLOPS
FP16/BF16 Tensor Dense989 TFLOPS756 TFLOPS989 TFLOPS
FP16/BF16 Tensor Sparse1,979 TFLOPS1,513 TFLOPS1,979 TFLOPS
FP8 Tensor Dense1,979 TFLOPS1,513 TFLOPS1,979 TFLOPS
FP8 Tensor Sparse3,958 TFLOPS3,026 TFLOPS3,958 TFLOPS
INT8 Tensor Dense1,979 TOPS1,513 TOPS1,979 TOPS
INT8 Tensor Sparse3,958 TOPS3,026 TOPS3,958 TOPS
HBM容量80 GB HBM380 GB HBM3141 GB HBM3e
HBM带宽3.35 TB/s2.0 TB/s4.8 TB/s
NVLink第4代, 900 GB/s (18链路)600 GB/s (仅NVL桥接)900 GB/s
PCIeGen5 x16 (128 GB/s)Gen5 x16 (128 GB/s)Gen5 x16 (128 GB/s)
DGX配置8×H100, 640 GB HBM38×H200, 1,128 GB HBM3e

Hopper架构的关键创新包括第4代Tensor Core、TMA(Tensor Memory Accelerator)异步数据传输、WGMMA(warp-group级别矩阵乘法)指令及FP8 Transformer Engine的动态精度缩放。第4代NVSwitch(3.2 TB/s双向芯片带宽)支持单NVLink域内最多256颗GPU的全互联。

来源: NVIDIA Hopper Architecture Whitepaper, NVIDIA H100 Product Page, NVIDIA H200 Product Page, NVSwitch Technical Blog

Blackwell架构:B200 / GB200#

Blackwell采用双reticle设计(两个104B晶体管的die通过NV-HBI 10 TB/s桥接为统一GPU),基于台积电4NP增强工艺,总计2080亿晶体管。

参数B200 (1000W)GB200 Superchip (2×B200 + Grace)
SM数量~1482×~148
CUDA Core (FP32)~18,9442×~18,944
Tensor Core (第5代)5922×592
Transformer Engine第2代 (FP4/FP6/FP8)
FP64 Vector~40 TFLOPS~80 TFLOPS
FP32 Vector~80 TFLOPS~160 TFLOPS
FP64 Tensor Dense~40 TFLOPS~80 TFLOPS
TF32 Tensor Dense1,125 TFLOPS2,250 TFLOPS
FP16/BF16 Tensor Dense2,250 TFLOPS5,000 TFLOPS
FP16/BF16 Tensor Sparse (2:4)4,500 TFLOPS10,000 TFLOPS
FP8 Tensor Dense4,500 TFLOPS10,000 TFLOPS
FP8 Tensor Sparse9,000 TFLOPS20,000 TFLOPS
NVFP4 Tensor Dense9,000 TFLOPS20,000 TFLOPS
NVFP4 Tensor Sparse18,000 TFLOPS40,000 TFLOPS
INT8 Tensor Dense4,500 TOPS10,000 TOPS
HBM容量192 GB HBM3e384 GB HBM3e
HBM带宽8 TB/s16 TB/s (合并)
NVLink第5代, 1.8 TB/s
NVLink-C2C (CPU-GPU)900 GB/s
PCIeGen5 x16 (128 GB/s)

Blackwell Ultra (B300/GB300, 2025年下半年):

参数B300GB300 NVL72
NVFP4 Dense15 PFLOPS (B200的1.5倍)
FP8 Dense5 PFLOPS
HBM容量288 GB HBM3e20.7 TB (72×288 GB)
HBM带宽8 TB/s576 TB/s聚合
NVLink第5代, 1.8 TB/s130 TB/s (18颗NVSwitch)
SFU (Attention)10.7 TeraExponentials/s (B200的2倍)
TDP1,400W液冷
机架算力1.1 EFLOPS FP4

GB200 NVL72 超节点: 72颗B200 GPU + 36颗Grace CPU,总计13.5 TB HBM3e、576 TB/s总显存带宽。18颗NVSwitch(9 tray)提供130 TB/s无阻塞all-to-all全互联,72颗GPU作为统一加速器呈现。单机架FP4推理算力达1.44 EFLOPS,功耗~120 kW,液冷。

DGX SuperPOD (B200): 8×GB200 NVL72 = 576颗GPU,>1 PB/s NVLink域,11.5 EFLOPS FP4。

Blackwell关键架构创新:

  • 第5代Tensor Core:原生支持NVFP4(E2M1+微张量共享指数)、MXFP4(OCP标准f4E2M1FN)、MXFP6(f6E2M3FN/f6E3M2FN)、FP6(E3M2/E2M3)
  • 微张量缩放(Micro-Tensor Scaling):每32元素块共享E8M0缩放因子,实现低精度下的高动态范围
  • TMEM(Tensor Memory):每SM专用片上张量内存,与共享内存分离
  • NV-HBI:10 TB/s片间互联将两个die统一为单颗CUDA GPU
  • 解压缩引擎:800 GB/s吞吐量

来源: NVIDIA Blackwell Technical Blog, NVIDIA GB200 NVL72, Blackwell Microbenchmarking (arXiv:2512.02189), NVIDIA Blackwell Ultra Blog

Vera Rubin架构 (2026年下半年)#

CES 2026发布的下一代平台,台积电3nm工艺,GPU部分3360亿晶体管。

参数Vera Rubin GPU
NVFP4 Dense (推理)50 PFLOPS (Blackwell的5倍)
NVFP4 Dense (训练)35 PFLOPS (Blackwell的3.5倍)
FP8/FP6 训练~14+ PFLOPS
HBM容量288 GB HBM4
HBM带宽22 TB/s (Blackwell的2.8倍)
NVLink第6代, 3.6 TB/s per GPU
NVLink-C2C1.8 TB/s (到Vera CPU)
Vera CPU88×Olympus ARM核心 (Armv9.2), 176线程, 1.5 TB LPDDR5X
机架系统Vera Rubin NVL72: 3.6 EFLOPS FP4推理, 2.5 EF训练
能效每token成本为Blackwell的1/10

来源: NVIDIA Vera Rubin at CES 2026, NVIDIA DGX Rubin NVL8

实际使用情况#

NVIDIA GPU是全球AI训练和推理的事实标准:

  • GPT-4:~25,000颗A100训练
  • Llama 3 405B (Meta):16,384颗H100训练,54天
  • DeepSeek V3/R1:~2,048颗H800训练,成本约$5.58M
  • Grok (xAI):~100,000颗H100 Colossus集群
  • GB200 NVL72已在CoreWeave、Azure部署

软件栈#

组件用途
CUDA通用并行计算平台,Compute Capability 9.0(Hopper)/10.0(Blackwell)
cuDNN / cuBLAS深度神经网络/线性代数库
NCCL多GPU集合通信库
TensorRT-LLM最高单GPU推理吞吐
Megatron-LM / NeMo大规模分布式训练 (5D并行)
vLLM开源LLM推理引擎 (PagedAttention)
SGLang多轮对话/Agent推理优化 (RadixAttention)
DeepSpeedZeRO优化分布式训练/推理
verlRLHF/PPO训练管线
Triton高性能内核编写编译器

AMD#

AMD Instinct产品线:MI300X (CDNA 3, 2024) → MI355X (CDNA 4, 2025下半年) → MI400 (CDNA Next, 2026)。

MI300X (CDNA 3, 当前主力)#

台积电5nm (XCD) + 6nm (IOD), ~1,530亿晶体管, 304个CU, 19,456个流处理器。

精度DenseSparse (2:4)
FP64 Matrix163.4 TFLOPS
FP32 Matrix163.4 TFLOPS
FP64 Vector81.7 TFLOPS
FP32 Vector81.7 TFLOPS
TF32653.7 TFLOPS1,307.4 TFLOPS
FP16/BF161,307.4 TFLOPS2,614.9 TFLOPS
FP82,614.9 TFLOPS5,229.8 TFLOPS
INT82,614.9 TOPS5,229.8 TOPS
参数
HBM192 GB HBM3, 5.3 TB/s
Infinity Cache256 MB
GPU间互连第4代Infinity Fabric, 7链路全网状, 每链路128 GB/s
总GPU间带宽~896 GB/s (每GPU)
PCIeGen5 x16 (128 GB/s)
TBP750W
8-GPU平台1.5 TB HBM3, 42.4 TB/s聚合带宽

MI300X的FP64向量性能(81.7 TFLOPS)为H100(34 TFLOPS)的2.4倍,在HPC工作负载中具备显著优势。但GPU间带宽(128 GB/s/链路)仅为NVLink 4(900 GB/s总)的约七分之一,多GPU扩展受限。

MI355X (CDNA 4, 2025下半年)#

台积电N3P (XCD) + N6 (IOD), ~1,850亿晶体管, 256个CU (有意减少), 16,384个流处理器。

精度DenseSparse
FP64 Matrix78.6 TFLOPS
FP32 Matrix157.3 TFLOPS
FP64 Vector78.6 TFLOPS
FP32 Vector157.3 TFLOPS
FP16/BF162.5 PFLOPS5.0 PFLOPS
FP8 (OCP E4M3/E5M2)5.0 PFLOPS10.1 PFLOPS
MXFP610.1 PFLOPS
MXFP410.1 PFLOPS
INT85.0 POPS10.1 POPS
参数MI350X (风冷)MI355X (液冷)
HBM288 GB HBM3e288 GB HBM3e
HBM带宽8.0 TB/s8.0 TB/s
Infinity Fabric第4代增强, 7链路
每链路带宽153.6 GB/s153.6 GB/s
总GPU间带宽~1,075 GB/s~1,075 GB/s
PCIeGen5 x16 (128 GB/s)
TBP1,000W1,400W

CDNA 4关键创新: 每CU矩阵吞吐量翻倍(FP8从4096增至8192 FLOPS/周期),LDS扩大至160 KB/CU(2.5倍),原生MXFP4/MXFP6支持,I/O die从4个合并为2个。CU数从304减至256是为了2次幂分块优化。

MLPerf Inference v5.1(FP4提交):

  • Llama 2 70B离线 (8×MI355X):93,045 tokens/s,比B200快41%,比H200快196%
  • Llama 3.1 405B离线 (8-GPU):2,109 tokens/s,比GB200快27%

独立基准(Signal65/SemiAnalysis,2025): 芯片级MI355X在DeepSeek-R1上比B200快1.2倍。但多GPU扩展受限于Infinity Fabric,GB200 NVL72的NVLink域在DeepSeek-R1上领先最高28倍。

来源: AMD MI355X Product Page, AMD MLPerf Inference v5.1, AMD MLPerf Training v5.1, CDNA 4 ISA Details

MI400系列 (CDNA Next/UDNA, 2026下半年)#

台积电N2 (2nm) 计算芯片 + N3P I/O/中介层, ~3,200亿晶体管 (MI455X), CoWoS-L封装。

参数MI455X (旗舰)MI430X (HPC)
FP4 Dense40 PFLOPS
FP8 Dense20 PFLOPS
FP16/BF16 Dense10 PFLOPS
FP64部分支持完整原生FP64
HBM432 GB HBM4待定
HBM带宽19.6 TB/s待定
TDP1,500-1,800W (液冷)待定
GPU间互连UALink (每GPU 300 GB/s)

Helios 机架系统: 72×MI455X + 18×Zen 6 EPYC “Venice” (2nm, 256核/颗), 31 TB HBM4总容量, 1.4 PB/s聚合带宽, 2.9 EFLOPS FP4推理, UALink开放标准互连。

来源: AMD MI400 CES 2026, MI400 Specs

实际部署#

  • Meta:MI300X用于Llama 405B专属推理
  • Microsoft Azure:ND MI300X v5 VM系列,用于GPT-4推理
  • OpenAI:多年协议,2026下半年起部署1 GW MI450
  • Oracle Cloud:部署MI300X用于训练和推理,宣布MI355X实例
  • xAI、Character.AI、Cohere、IBM:大规模采用
  • AMD声称全球前10大AI公司中7家在用Instinct GPU

软件栈:ROCm 7#

ROCm完全开源。ROCm 7.0 (2025 Q3) 提供原生FP4/FP6/FP8支持,推理性能较ROCm 6提升3.5倍。PyTorch已是最成熟的框架,通过HIP可编译90%+的CUDA内核。vLLM和SGLang有官方ROCm镜像,DeepSpeed、JAX、Triton均已支持。Megatron-LM兼容性持续改善。

剩余差距: 开发者习惯(CUDA锁定)、库成熟度(cuDNN/TensorRT无精确替代品)、安装复杂度、企业信任度。

来源: AMD ROCm 7, ROCm vs CUDA Analysis


Google TPU#

Google TPU已发展到第七代,从v1 (92 TOPS) 到v7 (4,614 TFLOPS FP8),性能提升3,600倍+。

TPU v6 “Trillium” (2024, 当前量产)#

参数
BF16 Dense (单芯片)918 TFLOPS
INT8 Dense (单芯片)1,836 TOPS
FP8 Dense (估算)~1.8 PFLOPS (2× BF16)
MXU尺寸256×256 脉动阵列 (v5e的4倍)
HBM32 GB, ~1.64 TB/s (v5e的2倍)
ICI (芯片间互连)双向3.2 Tb/s (聚合), 4端口/芯片
TDP~150W (能效比v5e提升67%)
Pod256芯片 (2D环面拓扑), BF16 234.9 PFLOPS
代际提升相对v5e: 4.7倍性能
主要客户Anthropic签约数十万片 (2027年扩至100万片)

关于稀疏性: TPU的MXU仅处理稠密矩阵乘法,无2:4结构化稀疏支持。SparseCore(第3代) 是专用数据流加速器,用于推荐系统的嵌入查找(随机/细粒度内存访问),而非稀疏矩阵乘法。SparseCore与MXU协同工作:嵌入在SparseCore上,稠密变换在MXU上。

TPU v7 “Ironwood” (2025年4月发布, 2025年11月GA)#

参数
FP8 Dense (单芯片)4,614 TFLOPS (~4.6 PFLOPS)
HBM容量192 GB HBM3E (v6的6倍)
HBM带宽7.2-7.4 TB/s (v6的4.5倍)
ICI双向1.2 Tb/s (v6的1.5倍), 聚合9.6 Tb/s
TDP~980-1,000W
制程/封装3D堆叠混合键合 (逻辑与内存层10μm间距)
每瓦性能v6e的2倍

架构亮点:

  • FlexCore 计算核心:4,096 MAC单元/核心, 支持FP32/FP16/BF16/FP8混合精度, 64 MB L3/核心 (向量引擎), MXU为512×512有效阵列 (FP8模式)
  • 第4代SparseCore:不仅处理嵌入查找,还能卸载集合通信操作(All-Gather、Reduce-Scatter),实现计算与通信接近完美重叠(减少15-22%训练步时间)
  • 硅光子互联 (OCS):片上直接集成激光器和调制器, 波分复用, 单链路1.6 TB/s, 延迟从20μs降至5μs(↓75%)。光电路交换动态路由芯片间通信,是9,216芯片SuperPod的关键使能技术
  • 双设备编程模型:从MegaCore单核→双TPU设备直接访问

SuperPod (9,216芯片):42.5 EFLOPS FP8, 总HBM ~1.77 PB。对比Frontier超算(1.7 EF)达24倍以上。

实际使用:

  • Gemini系列模型训练和推理
  • Anthropic Claude部分工作负载已运行在Ironwood
  • Midjourney迁移至TPU v6e后推理成本降低65%

软件栈: JAX(主力)、TensorFlow、PyTorch/XLA。vLLM通过XLA后端支持。Google Cloud提供TPU实例。TPU单位美元性能为GPU的1.4倍。

来源: Google Ironwood Announcement, Google TPU vs NVIDIA Framework, Ironwood Deep Dive


Amazon AWS Trainium#

Trainium 2 (2024年12月GA)#

精度DenseSparse (2:4结构化)
FP8 (cFP8)1,299 TFLOPS2,563 TFLOPS
BF16 / FP16 / TF32667 TFLOPS2,563 TFLOPS
FP32181 TFLOPS
参数
架构8×NeuronCore-v3/芯片
HBM96 GB HBM3, 2.9 TB/s
DMA带宽3.5 TB/s (带在线压缩/解压缩)
互联NeuronLink-v3, 1.28 TB/s/芯片 (3D环面)
集合通信16个CC-Core/芯片
制程台积电5nm
Trn2 UltraServer (64芯片)83.2 PFLOPS FP8, 6 TB HBM3, 185 TB/s聚合带宽

Project Rainier:~50万颗Trainium2,全球最大非NVIDIA AI集群,为Anthropic Claude训练提供算力。截至2026年初总部署约140万颗。

Trainium 3 (2025年12月GA)#

精度DenseSparse (多模式: 4:16/4:12/4:8/2:8/2:4/1:4/1:2)
MXFP8 / MXFP42,517 TFLOPS (共享峰值, MXFP4计算前转为MXFP8)
FP82,517 TFLOPS
BF16 / FP16 / TF32671 TFLOPS2,517 TFLOPS
FP32183 TFLOPS
参数
制程台积电3nm (AWS首款3nm芯片)
架构8×NeuronCore-v4/芯片
HBM容量144 GB HBM3e (Trn2的1.5倍)
HBM带宽4.9 TB/s (Trn2的1.7倍)
SBUF (暂存缓冲)256 MiB/芯片
互联NeuronLink-v4, 2.56 TB/s/芯片 (Trn2的2倍)
拓扑NeuronSwitch-v1 (全对全拓扑, 取代环面, 针对MoE优化)
UltraServer Gen2 (144芯片)362 PFLOPS FP8, 20.7 TB HBM3e, 705.6 TB/s聚合带宽
能效每瓦性能为Trn2的4倍, 每兆瓦token数5倍

实际性能: Anthropic Claude生产工作负载已运行在Trainium3。Decart实时生成视频推理4倍加速,成本为GPU的一半。Amazon Bedrock通过Trainium3提供推理流量。

软件栈: Neuron SDK(含PyTorch、Triton、JAX、vLLM支持),Neuron Kernel Library。

来源: AWS Trainium3 UltraServers, AWS Trainium Ecosystem Guide, Trainium3 vs NVIDIA


Microsoft Maia#

Maia 200 (2026年1月发布, 已部署)#

参数
制程台积电3nm, >1,400亿晶体管
FP4 Dense10,145 TFLOPS (~10 PFLOPS)
FP8 Dense5,072 TFLOPS (~5 PFLOPS)
HBM容量216 GB HBM3e
HBM带宽~7 TB/s
片上SRAM272 MB
Scale-Up带宽2.8 TB/s双向 (每加速器)
互联方式标准以太网 (非私有协议), 自研Maia AI传输协议
TDP750W (SoC)
最大集群6,144加速器
散热第2代闭环液冷

实际部署:

  • 已部署于Azure US Central (Des Moines) 和 US West 3 (Phoenix)
  • 驱动OpenAI GPT-5.2推理、Microsoft 365 Copilot、内部Superintelligence团队工作负载
  • 微软声称比同集群最新硬件性价比高30%

软件栈: Maia SDK (预览),含PyTorch集成、Triton编译器、优化内核库、NPL低层编程语言、模拟器和成本计算器。

来源: Microsoft Maia 200 Blog, Maia 200 Specifications


Meta MTIA#

MTIA v2 (2025年部署, 2026年3月公开)#

参数
制程5nm, ~421 mm²
INT8 Dense354 TOPS
FP16 Dense177 TFLOPS
频率1.35 GHz
片上SRAM256 MB (2.7 TB/s带宽)
每PE本地存储384 KB (1 TB/s带宽)
外部内存LPDDR5 (非HBM), 容量为v1的2倍
互联PCIe Gen5 (芯片间和主机间)
TDP90W
机架系统72加速器/机架 (3机箱×12板卡×2加速器)

代际提升 (vs v1): Dense性能3.5倍, Sparse性能7倍, SRAM容量翻倍/带宽3.5倍。

实际使用: 已部署于Meta数据中心,服务排序推荐、广告模型和GenAI工作负载。Meta表示两年内迭代了四代,目前正推进扩展至LLM和多模态模型。

软件栈: 自研编译器和运行时,PyTorch集成。目前主要面向Meta内部工作负载,不对外商用。

来源: Meta MTIA Roadmap, Meta MTIA v2


Intel Gaudi 3 & Jaguar Shores#

Gaudi 3 (2024 Q4 GA, 当前产品)#

台积电5nm, 64个第5代TPC, 8个MME (256×256 MAC阵列)。

参数
FP8 Dense (MME)1,835 TFLOPS
BF16 Dense (MME)1,835 TFLOPS
BF16 Vector (TPC)28.8 TFLOPS
HBM容量128 GB HBM2e
HBM带宽3.7 TB/s
片上SRAM96 MB (19.2 TB/s)
网络24×200 GbE RDMA (RoCE v2), 1.2 TB/s双向
PCIeGen5 x16 (128 GB/s)
TDP900W (OAM风冷) / 1,200W (液冷) / 600W (PCIe)
最大集群8,192加速器 (1,024节点)

为什么不成功:

  • 2024年$500M营收目标未达成
  • 2025年出货目标下调30%
  • SynapseAI软件栈落后CUDA约15年
  • Falcon Shores于2025年1月取消商业化

Jaguar Shores (2026年, 唯一未来赌注)#

规划参数
制程Intel 18A (RibbonFET GAA + PowerVia背面供电)
封装测试芯片显示4计算tile + 8 HBM4堆叠
目标机架级AI数据中心方案
时间线2026 H1设计定稿, H2量产

Intel已从卖独立加速芯片全面转向机架级系统方案,直接对标NVIDIA NVL72路线。Habana Labs主导Jaguar Shores开发。

来源: Intel Gaudi 3 Launch, Intel Cancels Falcon Shores, Jaguar Shores


Groq LPU#

Groq由前Google TPU设计师Jonathan Ross创立,2025年底被NVIDIA以~$170B收购。LPU采用确定性VLIW数据流架构,完全不使用HBM/DRAM/Cache——所有内存为片上SRAM。

Groq 3 LPU (LP30, 三星SF4X 4nm, 2026下半年)#

参数
制程三星SF4X (4nm), ~980亿晶体管
FP8 Dense1.2 PFLOPS
INT8支持, >400K MAC/周期/芯片
片上SRAM500 MB
SRAM带宽~150 TB/s
C2C链路96 lane × 112 Gbps = ~2.5 TB/s双向/芯片
向量宽度320字节原子单元
PCIeGen5
FP4/MX4LPU v3不支持, 待LP35 (预计2027)
  • 无稀疏计算。 LPU架构不做稀疏——所有计算为稠密。
  • 无HBM、无DRAM、无Cache。 SRAM是唯一内存,编译器显式放置所有数据。
  • 确定性执行: 无动态调度、无乱序执行、无分支预测。P99延迟=P50延迟。最差情况抖动±3μs。芯片利用率可达98%(GPU通常<40%)。

LPX机架系统(256颗Groq 3 LPU):

参数
总SRAM128 GB
聚合SRAM带宽40 PB/s
FP8算力315 PFLOPS
Scale-Up带宽640 TB/s
拓扑Dragonfly无交换, 最多10,440颗TSP, 任意两芯片最多5跳

实际推理性能(部分在v1/v2上):

  • Llama 3.1 8B: 840 tok/s
  • GPT-OSS 20B: 1,000 tok/s
  • Llama 4 Scout: 594 tok/s
  • Qwen3 32B: 662 tok/s
  • Whisper V3: 217-228倍实时转录
  • 能耗: ~1-3 Joules/token (H100: 10-30 J)

NVIDIA整合策略: Groq 3 LPU并非替代GPU,而是补充推理decoding。AFD (Attention-FFN Disaggregation):Rubin GPU处理prefill/attention/KV-cache,LPU处理FFN/MoE decode,万亿参数模型decoding达1,500+ tok/s。

软件栈: MLIR前端 + Haskell (DSL “Haste”) 后端。不支持Triton——Triton的动态内核编译模型与确定性VLIW数据流架构不兼容。编译器预计算完整执行图(含所有芯片间通信),精确到时钟周期。

来源: Inside Groq LPU, Groq 3 LPX at GTC, Groq Chip Deep Dive


Cerebras WSE-3#

整张300 mm晶圆作为一个芯片——不切割、无片间互连。台积电5nm, 4万亿晶体管, 46,225 mm² (21.5×21.5 cm)。

参数WSE-3对比 H100 倍数
AI核心900,000
片上SRAM44 GB (每核48 KB)
SRAM带宽21 PB/s7,000×
晶圆上Fabric带宽214 Pb/s
FP16 Dense125 PFLOPS (WSE-3)
CS-3系统功耗~23 kW (15U, 水冷)
MemoryX (外部)高达1.5 PB/系统
最大集群2,048 CS-3 = 256 EFLOPS FP16
最大模型24万亿参数 (无需模型并行)

稀疏计算: 硬件原生支持——SLAC(稀疏线性代数核心)自动跳过零值,利用率比GPU高3-4倍。

Weight Streaming架构: 模型权重存储在片外MemoryX中,按需流式传输到片上SRAM。1万亿参数模型的训练与1B参数模型在GPU上一样直接——纯数据并行,无需模型并行/流水线并行。

实际使用:

  • OpenAI:$200亿+主协议,750 MW推理容量(2026-2028),可扩展至2 GW (2030)。主要用例为Codex Spark自主编程Agent。
  • AWS:CS-3集成到Amazon Bedrock,Trainium3处理prefill + CS-3处理decode,推理速度达同构GPU方案的15倍。
  • G42 (阿布扎比):Condor Galaxy 1/2/3超算,贡献2025年86%营收。
  • Llama 4 Maverick (400B):2,500 tok/s/用户——比DGX B200快2倍+。
  • Llama 3 70B推理:比B200快最高21倍,TCO低32%。

软件栈: CSoft平台,原生PyTorch 2.0支持,Cerebras Model Zoo。GPT-3级别模型只需565行代码(比GPU少97%)。

来源: Cerebras WSE-3 Announcement, Cerebras IPO Analysis, Cerebras Architecture Guide


SambaNova RDU#

SambaNova的RDU(可重构数据流单元)采用空间并行——将计算图映射到硬件上,融合数百个操作到单个内核中。

SN40L (第4代, 台积电5nm, 当前)#

参数
晶体管1,020亿 (双die, CoWoS-S)
BF16 Dense638 TFLOPS
三级内存:
Tier 1 (片上SRAM)520 MB 分布式
Tier 2 (封装内HBM3)64 GB
Tier 3 (外挂DDR5)高达1.5 TB
最大模型5万亿参数 (单节点)
最大上下文256K+ tokens
机架功耗~10 kW (16 RDU, 风冷)

SN50 (第5代, 2026下半年)#

参数
BF16 Dense1.6 PFLOPS (SN40L的2.5倍)
FP8 Dense3.2 PFLOPS (SN40L的5倍)
片上SRAM432 MB/RDU
HBM64 GB HBM2E @ 1.8 TB/s
DDR5256 GB-2 TB/RDU
互联2.2 TB/s双向/RDU, 最多256加速器
最大模型10万亿+参数
最大上下文1,000万+ tokens
机架SambaRack SN50: 16×SN50, ~20 kW, 风冷

Agentic Caching: 输入token缓存在内存中,减少prefill处理和TTFT。模型可毫秒级热切换。

实际部署: SoftBank(首个SN50客户,日本AI数据中心),Intel战略合作(Intel CEO为SambaNova执行主席)。DeepSeek R1 671B和Llama 4 Maverick可在单机架上运行。

来源: SambaNova SN40L RDU, SambaNova SN50 Launch, SambaNova Intel Partnership


Tenstorrent Blackhole#

Jim Keller领导, RISC-V架构, 刻意不使用HBM(使用GDDR6+大SRAM降低成本)。

Blackhole p150 (6nm, 当前出货)#

参数
Tensix核心120 (固件v19.5.0后从140降级)
BlockFP8 Dense664 TFLOPS
片上SRAM180 MB
GDDR632 GB, 512 GB/s
网络p150a: 4×QSFP-DD 800G被动
PCIeGen5 x16
TBP300W
价格$1,299
  • 所有计算为稠密——无稀疏Tensor Core声明。
  • 支持的格式:FP8, FP16, BF16, FP32(输出), FP64(RISC-V), BlockFP2/FP4/FP8, INT8/16/32/64, TF32。

TT-QuietBox 2 (桌面AI工作站, 2026 Q2):

  • 4×Blackhole处理器, 480个Tensix核心, 2,654 TFLOPS BlockFP8
  • 128 GB GDDR6总 + 256 GB DDR5系统内存
  • 液冷, ~1,400W, $9,999起
  • Llama 3.1 70B: 476.5 tok/s

全开源软件栈: TT-Metalium (底层SDK), TT-NN (PyTorch风格算子库), TT-Forge (MLIR编译器), TT-XLA (PyTorch/JAX前端)。PyTorch、ONNX、TensorFlow、JAX、PaddlePaddle均支持。

来源: Tenstorrent Blackhole Specs, TT-Metalium, QuietBox 2


Graphcore Bow IPU#

2024年7月被软银以$5-6亿收购。当前旗舰仍是Bow IPU(Colossus MK2),台积电7nm + 3D WoW, ~600亿晶体管, 1,472个IPU-Core tile。

参数
片上SRAM900 MB (每tile 624 KB)
SRAM带宽65 TB/s
混合精度AI350 TFLOPS
Bow-2000 (4 IPU, 1U)1.4 PFLOPS, 5,888核, 35,000+线程, 3.6 GB总片上内存
外挂DDR高达256 GB Streaming Memory

架构特色: MIMD (每tile独立指令流), 非SIMT。In-Processor-Memory范式——所有权重和激活值可完全驻留在片上。

实际应用领域:

  • GNN (主要利基):NeurIPS 2022 OGB-LSC第一名。时序GNN比A100快10倍。
  • 药物发现:LabGenius抗体发现从1月缩短至2周
  • 分子属性预测:Graphium库,>8,600万分子
  • DNA/蛋白序列比对:X-Drop算法比A100快10倍

状态: 软银收购后尚无新芯片发布,2025年4月注资$4.57亿。

来源: Graphcore Bow IPU, IPU Architecture


国产厂商#

华为昇腾#

华为昇腾是国内生态最完善的AI芯片厂商,已形成910B→910C→950PR/DT三代产品线。2025年累计出货约81.2万片,市占率~20%,国产第一。

昇腾910B / 910C#

参数910B910C
FP16 Dense~256-280 TFLOPS~640-781 TFLOPS (双Die)
HBM64 GB HBM2e, ~768 GB/s128 GB HBM, 3.2 TB/s
制程7nm7nm (双Die封装)
互联HCCSHCCS增强
  • 910B训练效率达A100的~80%。
  • 910C在DeepSeek推理中达H100的~60%性能。
  • CloudMatrix 384超节点:384颗910C, DeepSeek-R1推理Prefill 6,688 tok/s/卡, Decode 1,943 tok/s/卡。

昇腾950PR (2026 Q1商用, 推理专用) / 950DT (2026 Q4, 训练+推理)#

参数950PR950DT
FP8 Dense~1 PFLOPS~2 PFLOPS
FP4 Dense1.56 PFLOPS待公布
HBM112 GB 自研HBM, 1.4 TB/s待公布
TDP600W待公布
单卡性能H20的2.87倍
架构SIMD/SIMT同构设计

Atlas 950超节点: 最大支持8,192卡, FP8总8 EFLOPS, 总内存1,152 TB, 推理时延从50ms降至10ms。

昇腾970 (规划2028Q4): FP4目标8 PFLOPS。

来源: 昇腾910C DeepSeek一体机, CloudMatrix 384超节点, Atlas 950

实际使用——DeepSeek V4里程碑#

2026年4月24日,DeepSeek V4成为全球首个完全脱离CUDA生态的万亿参数大模型。底层约40万个算子从CUDA重写为CANN架构,精度误差<0.5%。实测单卡Decode吞吐达4,700 TPS,推理成本降至NVIDIA方案的1/3。

来源: DeepSeek V4 on Ascend 950PR, DS V4脱离CUDA

软件栈#

  • CANN 9.0 (已全面开源):1,500+基础算子, 100+融合算子
  • MindSpore:自研AI框架
  • vLLM-Ascend (官方社区插件):遵循Hardware Pluggable架构, 支持LLaMA/Qwen/DeepSeek-V3/GLM-4
  • SGLang:原生支持昇腾NPU, 提供PD分离部署
  • PyTorch:华为维护的适配版本, 可一键转换CUDA代码
  • 开发者生态超200万, 适配160+主流大模型, 服务600+企业

来源: vllm-ascend, SGLang Ascend Quick Start, CANN开源


寒武纪#

寒武纪思元系列是国产AI芯片第二大出货量。2025全年营收64.97亿元(+453%),首次年度盈利。极度依赖字节跳动(贡献96%营收)。

思元590 (7nm, 当前)#

参数
FP16 Dense~256-345 TFLOPS
HBM96 GB HBM2e
性能定位A100的~80%

在字节跳动推荐系统中大规模部署,运行LLaMA3 70B推理仅比A100慢18%,成本低45%。

思元690 (5nm, Chiplet双Die, 2026量产)#

参数
FP16 Dense>700 TFLOPS (思元590的2倍)
HBM196 GB HBM3
双Die互联>890 GB/s
价格≥12万元/片
对标H100的80%
适配DeepSeek V3.1 UE8MOFP8

实际部署: 火山引擎平台已部署超2万张思元690卡。8卡全互联集群日均支撑10亿次AIGC内容生成。腾讯混元大模型训练测试思元690集群,误差<3%。

边缘芯片: 思元220-M.2已嵌入TikTok智能推荐系统,东南亚市场延迟降30%。

软件栈: Cambricon Neuware (类似CUDA), torch_mlu (PyTorch动态图适配), 通过FlagScale框架优化。适配DeepSeek-V3.1、Qwen3、GLM-4.6。**vLLM暂无明显官方支持。**开发者社区约10万人(vs CUDA 400万),软件生态是最大短板。

来源: 寒武纪字节跳动关系, 思元690部署, 寒武纪上市


阿里平头哥 真武PPU#

阿里走全栈自研路线——“真武”PPU + “倚天”CPU + “磐脉”智能网卡 + “镇岳”存储主控 + ICN Switch互联芯片。

真武810E (2026年1月)#

参数
HBM96 GB HBM2e
片间互联700 GB/s
性能定位与NVIDIA H20相当
累计出货60万+片 (截至2026 Q1)

真武M890 (2026年5月20日发布)#

参数
HBM144 GB
片间互联800 GB/s
精度FP32-FP4原生全精度
性能810E的3倍
互联芯片自研ICN Switch 1.0, P2P延迟<150纳秒
超节点磐久AL128: 128张M890组成”一台计算机”

实际使用: Qwen3.7-Max旗舰模型在真武M890上推理,35小时内完成1,158次自主工具调用,推理速度提升10倍。截至2026年Q1累计出货60万片,服务国家电网、小鹏汽车、中国电信等400+客户。

路线图: V900 (2027 Q3, 3倍性能), J900 (2028 Q3, 全新架构)。

软件栈: 阿里云”芯-云-模型-推理”全栈体系。通过阿里云弹性GPU实例提供算力。PyTorch深度适配。公开文档较少,以内部使用为主。

来源: 真武M890发布, 阿里云峰会, AL128超节点


昆仑芯#

百度自研,已发展三代(R300→P800→M100/M300)。

昆仑芯P800 (XPU架构, 当前主力)#

  • 已承载百度绝大多数AI推理任务
  • 万卡集群训练ERNIE 5.1,有效训练率97%,线性扩展性>85%

昆仑芯M300 (7nm, 2027年初, 部分参数已公布)#

参数
FP16 Dense62.8 TFLOPS
HBMHBM3E, 1.2 TB/s
晶体管>500亿 (3D堆叠)
计算单元4,096个FP16单元
能效比48.7 TOPS/W
空闲功耗<15W (DVFS)
可编程逻辑20% FPGA区域

超节点: 天池256 (2026 H1, 单卡吞吐增3.5倍), 天池512 (2026 H2, 完成万亿参数模型训练)。

实际客户: 招商银行、南方电网、吉利、Vivo、中国移动(十亿级集采)等上百家客户。

软件栈: PaddlePaddle (一行代码切至XPU), vLLM-Kunlun Plugin (已开源, 支持20+模型), FastDeploy。百度智能云出租昆仑芯算力。

来源: ERNIE 5.1 on Kunlunxin, 天池超节点, vLLM-Kunlun


摩尔线程#

国产全功能GPU路线,MUSA架构。2025年营收14.5-15.2亿元(+230%+)。

MTT S5000 (第四代”平湖”MUSA, 2024-2025主力)#

参数
FP8 Dense1,000 TFLOPS (1 PFLOPS) — 国产首款PFLOPS级
精度支持FP8 / FP16 / BF16 / TF32 / FP32 / FP64 全精度
显存80 GB, 1.6 TB/s
卡间互联784 GB/s
集群扩展效率64→1024卡线性>90%
训练MFUDense 60%, MoE 40%
对标H100级别

DeepSeek 671B满血版推理(与硅基流动联合): Prefill >4,000 tok/s, Decode >1,000 tok/s (峰值1,024), 达H100同场景~61%实测性能。

夸娥万卡集群(KUAE 2.0): 10 EFLOPS总算力。

第五代”花港”架构 (2025年12月发布, 2026量产)#

  • 算力密度+50%, 能效提升10倍, 支持十万卡+集群
  • “华山” (AI训推, FP4-FP64全精度, 万卡集群)
  • “庐山” (渲染, 3A性能×15, AI×64, 光追×50)

软件栈——进展最迅猛的国产厂商#

  • MUSA 5.0:muDNN GEMM/FlashAttention效率>98%, 通信效率>97%
  • Torch-MUSA:算子突破1,050个, 支持FlashAttention
  • vLLM-MUSA:v1.3 prefill提10倍, 长上下文decode提3倍
  • SGLang (2026年5月重大里程碑!):MUSA后端正式合入SGLang主线,47个PR已合入41个。支持DeepSeek(含V4)、Qwen3/3.5、GLM 4/5、MiniMax M2.5/M2.7
  • 深度对接Triton/FlagOSTileLang。摩尔线程是Mooncake核心Maintainer。

来源: MTT S5000 DeepSeek 671B, MUSA合入SGLang, Torch-MUSA


壁仞科技#

2025年营收10.35亿元(+207%), 港交所上市。

壁砺166系列 (2025量产)#

参数
FP16 Dense~800 TFLOPS (双BR106裸晶Chiplet)
显存64 GB, 1.6 TB/s
精度FP8/FP16
封装CoWoS 2.5D

光跃超节点128卡商用版 (2026年3月):搭载壁砺166L液冷模组 + 曦智科技硅光OCS光交换 + 中兴AI服务器。

BR20X系列 (2026年计划)#

5nm (台积电, 有制程受限风险), 原生FP8/FP4, 256 GB HBM3E, 2 TB/s互连, 640卡互联。

Day 0适配(最快记录): 腾讯混元Hy3 (295B MoE), Kimi K2.6 (1T MoE), GLM-5.1 (744B MoE), DeepSeek-V4, 中国移动九天35B等。

软件栈: BIRENSUPA (全自研), AIModelMaster (自研GPU全栈智能体实现Day 0极速适配), 500+模型开箱即用。

来源: 壁仞2025年报, 光跃128卡, BR20X路线图


沐曦#

营收三年30倍增长 (2023: 0.53亿→2025: 16.44亿)。

曦云C500 (2024量产)#

参数
FP16 Dense~240 TFLOPS
HBM64 GB HBM2e

曦云C600 (2025底风险量产→2026 H1量产)#

参数
制程12nm (中芯国际全国产)
HBM144 GB HBM3e, >3.35 TB/s
精度FP8-FP64全精度
互联MetaXLink, 16-64卡超节点
架构XCORE 1.5

实际部署: Shanghai Cube 128卡液冷集群运行DeepSeek 671B满血版推理。Qwen3-4B支持256K超长上下文。阶跃星辰Step 3.5 Flash Day 0适配。

云支持: 腾讯云TencentOS Server 4原生支持, OpenCloudOS 8/9原生支持。适配浪潮、联想等9家OEM。

软件栈: MXMACA SDK, PyTorch/TensorFlow, vLLM部署文档。

来源: 沐曦C600, Shanghai Cube集群, 腾讯云沐曦支持


海光信息#

深算DCU系列主打ROCm兼容——这是国产芯中最接近CUDA生态迁移的路径。

深算三号 (DCU 8300, 2025量产)#

参数
FP32>24 TFLOPS
HBM64 GB HBM3
制程7nm+
CUDA兼容算子兼容>99%
客户字节/腾讯/阿里已批量供货

深算四号 (2026量产)#

参数
FP32~150 TFLOPS
制程7nm+/Chiplet
互联CXL + 2.5D封装

实际使用: 海光技术团队已成功完成DeepSeek V3/R1适配并正式上线,在科教、金融、医疗等规模化应用。据报道DeepSeek V4训练确实选用了海光DCU+寒武纪MLU,核心算子重构200+个。

迁移周期: 模型迁移仅15-20天 (昇腾需45-60天)。

软件栈: DTK (DCU Toolkit) 兼容ROCm生态。vLLM在DCU上可用但量化版适配困难。HSI高速互联 (400 GB/s)。

来源: 海光DeepSeek适配, DS V4训练芯片


天数智芯#

累计交付5.2万片通用GPU, 服务290+客户, 900+次部署。2024年营收5.395亿元。

天垓150 (当前)#

参数
FP16 Dense~192 TFLOPS
HBM64 GB HBM2e
TPP性能密度3,040

天垓200 (2026)#

面向大模型训练,细节待公布。路线图目标对标H200→B200 (算力需提升5-12倍)。

实际使用: 与无问芯穹合作在智铠百卡推理集群部署Infini-AI异构云平台。与Gitee AI合作一天内完成DeepSeek R1适配。中国电子云联合方案:芯片成本降15%, 推理并发增10倍+, 分布式训练加速近2倍。已支持36个大模型。

来源: 天数智芯招股, DS R1适配, 中国电子云方案


砺算#

国内首家全自研GPU (指令集→计算核心完全自主), 主攻图形渲染+“渲推一体”。

7G100 (6nm TrueGPU天图架构, 2026年6月发售)#

参数
制程6nm
FP32 Dense~24 TFLOPS
显存12 GB GDDR6
PCIeGen4 x16
TBP225W
价格¥3,299 (国补后~¥2,969)
游戏性能3DMark FireStrike 26,800; 黑神话1080P高>70 FPS
AI推理本地部署Qwen3 32B、DeepSeek 14B、SD3

全球第四家通过微软WHQL认证的GPU厂商。支持NRSS超分 (对标DLSS/FSR)。专业版LX Ultra 24GB GDDR6+ECC。

生态: 适配海光/鲲鹏/飞腾/兆芯/龙芯CPU, Windows/麒麟/UOS/Ubuntu OS。AutoCAD/Solidworks/Blender等50+款专业软件。

来源: 砺算7G100首发, WHQL认证


综合对比总表#

国际旗舰芯片矩阵算力对比 (Dense, 单芯片)#

芯片FP64 MatFP32 MatFP16/BF16FP8FP4/NVFP4HBMHBM BWGPU间BWPCIe
NVIDIA H100 SXM67T989T1,979T80GB H33.35T900G (NV4)G5
NVIDIA H200 SXM67T989T1,979T141GB H3e4.8T900G (NV4)G5
NVIDIA B200~40T2,250T4,500T9,000T (NVFP4)192GB H3e8T1.8T (NV5)G5
NVIDIA B300~40T~3,375T?5,000T15,000T (NVFP4)288GB H3e8T1.8T (NV5)G5
NVIDIA Rubin~14,000T50,000T (NVFP4)288GB H422T3.6T (NV6)
AMD MI300X163.4T163.4T1,307.4T2,614.9T192GB H35.3T~896G (IF)G5
AMD MI355X78.6T157.3T2,500T5,000T10,100T (MXFP4)288GB H3e8T1,075G (IF)G5
AMD MI40010,000T20,000T40,000T432GB H419.6T300G (UAL)
Google TPU v74,614T192GB H3e7.4T1.2T (ICI)
Amazon Trn32,520TMXFP4144GB H3e4.9TNeuroSwitch
MS Maia 2005,072T10,145T216GB H3e7T2.8T (Eth)
Intel Gaudi 31,835T†1,835T128GB H2e3.7T1.2T (Eth)G5
Groq LPU v31,200T0.5GB SRAM150T (SRAM)2.5TG5
Cerebras WSE-3125,000T44GB SRAM21,000T (SRAM)214,000T (Fabric)
SambaNova SN503,200T64GB H2e1.8T2.2T
Tenstorrent BH664T (BlkFP8)32GB G60.5T3.2T (Eth)G5

注:T=TFLOPS(PFLOPS已折算), H3=HBM3, H3e=HBM3e, H4=HBM4, H2e=HBM2e, G6=GDDR6, NV=NVLink, IF=Infinity Fabric, Eth=以太网, UAL=UALink, G5=PCIe Gen5。†Gaudi 3 BF16为8个MME矩阵引擎, 非TPC向量。Cerebras WSE-3的125 PFLOPS为系统级(900,000核)FP16。

国产芯片矩阵算力对比 (Dense, 单芯片)#

芯片FP16/BF16FP8FP4HBM/显存显存BW卡间互联制程PCIe
昇腾950PR~1,000T1,560T112GB(自研)1.4THCCS7nm
思元690>700T196GB H3>890G5nm
真武M890144GB800G (ICN)
昆仑芯M30062.8TH3E, 1.2T7nm
MTT S5000BF16/FP161,000T80GB1.6T784G
壁砺166M~800T64GB, 1.6T7nm
曦云C600144GB H3e>3.35TMetaXLink12nm
深算四号ChipletHSI 400G7nm+
天垓150~192T64GB H2e
砺算7G10012GB G66nmG4

超节点与集群方案对比#

厂商超节点方案芯片数总算力 (峰值)总HBM互联技术状态
NVIDIAGB200 NVL7272 B2001.44 EF FP413.5 TBNVLink5+NVSwitch (130 TB/s)H2 2024
NVIDIADGX SuperPOD B200576 B20011.5 EF FP4108 TBNVLink5 域 (>1 PB/s)2025
NVIDIARubin NVL7272 Rubin3.6 EF FP420.7 TBNVLink6 (259 TB/s est)H2 2026
AMD8×MI355X UBB8 MI355X80.5 PF FP42.3 TBIF4全网状 (~1 TB/s)H2 2025
AMDHelios (MI400)72 MI455X2.9 EF FP431 TBUALink (43 TB/s scale-out)H2 2026
GoogleTPU v7 SuperPod9,216 Ironwood42.5 EF FP8~1.77 PBICI硅光子 (9.6 Tb/s)2025
AmazonTrn3 UltraServer144 Trn3362 PF FP820.7 TBNeuronSwitch-v12025
MSMaia 200 Scale-Up6,144 Maia 200~31 EF FP41,327 TB标准以太网2026
CerebrasCS-3 Cluster2,048 CS-3256 EF FP16晶圆上Fabric2024+
GroqLPX Rack256 Groq 3315 PF FP8128 GB SRAMDragonfly (640 TB/s)H2 2026
华为Atlas 950超节点8,192 昇腾8 EF FP81,152 TBHCCS2026
华为CloudMatrix 384384 910CHCCS2025
阿里磐久AL128128 M89018.4 TBICN Switch (<150ns P2P)2026
昆仑芯天池512512 M300天池互联2026 H2
摩尔线程夸娥万卡>10,000 S500010 EFMUSA互联2024-25
壁仞光跃128卡128 壁砺166L硅光OCS交换2026
海光天池256/512256 DCUHSI2026

软件生态对比#

厂商PyTorchvLLMSGLangTriton/TileLangMegatron/FSDPDeepSpeed自研框架
NVIDIA最成熟官方官方Triton原生Megatron-LM原生全支持CUDA/cuDNN/TensorRT
AMDROCm成熟Moreh优化官方Docker支持FSDP(较好)每两周更ROCm/HIP
Google TPUXLA后端XLA适配JAX(主力)
Amazon TrnNeuron SDK支持支持FSDPNeuron Kernel
MS Maia支持支持NPL语言
华为torch-npu官方vllm-ascend原生支持TileLang适配中支持CANN/MindSpore
寒武纪torch_mlu社区适配FlagScaleNeuware
阿里深度适配(内)自研
昆仑芯PaddlePaddle原生vLLM-KunlunXPU SDK
摩尔线程Torch-MUSA(1,050算子)vLLM-MUSA主线合入!Triton+TileLang支持支持MUSA
壁仞br_pytorchvLLMSGLangBIRENSUPA
沐曦支持vLLMMXMACA
海光DTK(PyTorch)有限DTK(ROCm兼容)
天数智芯多框架适配自研
砺算推理级TrueGPU SDK

实际部署验证#

下表汇总各芯片是否有公开可验证的训练或推理大规模部署证据

芯片训练证据推理证据代表模型/客户部署规模
NVIDIA H100✅✅✅✅✅✅GPT-4, Llama 3, Grok, DS V3全球百万级
NVIDIA B200🔶 初期GB200 NVL72 (CoreWeave/Azure)万级+
AMD MI300X🔶 有限✅✅✅Llama 405B (Meta), GPT-4 (Azure)十万级
AMD MI355X🔶 MLPerf验证✅✅DeepSeek-R1, Llama 3.1 (MLPerf)样品/早期
Google TPU v7✅✅✅✅✅Gemini, Claude数十万片
Amazon Trn3✅✅✅✅✅Claude (Anthropic), Bedrock百万级
MS Maia 200✅✅GPT-5.2, CopilotAzure部署
Intel Gaudi 3🔶🔶IBM Cloud小规模
Groq LPU❌ (不训)✅✅✅Llama, Kimi, GPT-OSS (GroqCloud)~19,000片
Cerebras WSE-3✅✅✅✅✅Codex Spark (OpenAI), Llama大型集群
华为昇腾✅✅✅ (910B/910C)✅✅✅ (950PR)DS V4脱离CUDA, Pangu, Qwen81.2万片
寒武纪🔶 (腾讯测试)✅✅✅字节推荐+AIGC (2万+卡), TikTok万级+
阿里真武✅✅✅Qwen3.7-Max, 400+客户60万片出货
昆仑芯✅✅✅✅✅✅ERNIE 5.1万卡训练万卡集群
摩尔线程✅ (DS V3训)✅✅✅DS 671B推理, QuEra集群万卡集群
壁仞✅✅✅Kimi K2.6, GLM-5.1, 混元Hy3数千卡
沐曦✅✅DS 671B (Shanghai Cube), Qwen3百-千卡级
海光✅✅✅✅DS V3/R1/V4训练+推理智算中心级
天数智芯✅ (异构)✅✅DS R1, 290+客户5.2万片交付
砺算❌ (非此定位)🔶 (端侧)Qwen3 32B本地, SD3消费级

图例:✅✅✅ 大规模生产级, ✅✅ 确认部署, ✅ 公开验证, 🔶 有限/初期, ❓ 无公开证据, ❌ 不适用


结论与展望#

核心趋势#

  1. FP4成为2025-2026推理的主力精度。NVIDIA的NVFP4、AMD的MXFP4、Intel的BlockFP4、Microsoft的原生FP4——所有主流厂商都走向了4-bit推理。训练仍以FP8/BF16为主。

  2. 机架级系统取代单卡竞争。NVL72、Helios、SuperPod、UltraServer——竞争的粒度从”每颗GPU”变为”每机架/每集群”。NVIDIA的NVSwitch/NVLink构成了当前最坚固的护城河。

  3. 推理取代训练成为首要设计目标。Google Ironwood是”首款推理时代TPU”,Groq LPU、SambaNova RDU、Cerebras CS-3均以推理为核心。预计2030年推理消耗75%的AI算力。

  4. 国产芯片已突破”能用”门槛。DeepSeek V4脱离CUDA在昇腾950PR上运行是最具标志性的事件。但要达到”好用”(软件生态、稳定性、性能优化),国产厂商仍需2-3年追赶。

各梯队定位#

第一梯队 (全面领先): NVIDIA — 从芯片架构到NVLink/NVSwitch系统级整合到CUDA软件生态,尚无短板。

第二梯队 (有竞争力但不全面): AMD (推理性价比接近, 训练/软件滞后), Google TPU (推理第一, 但不外售), Amazon Trainium (成本优势, 芯片性能非最强)。

第三梯队 (特定场景有优势): Cerebras (超大模型训练), Groq (超低延迟推理), SambaNova (Agent推理), Microsoft Maia (Azure整合)。

国产第一梯队 (已量产验证): 华为昇腾 (生态最完善), 阿里真武 (出货量大), 寒武纪 (字节生态), 昆仑芯 (训练验证最充分), 摩尔线程 (软件生态进展最快)。

国产第二梯队 (追赶中): 海光 (ROCm兼容), 壁仞 (硅光互联), 沐曦 (全国产供应链), 天数智芯 (商业落地务实)。

关键风险#

  • CUDA锁定:即便硬件性能追平, 开发者生态和库成熟度仍需要时间。
  • 制程受限:国产芯片制程普遍落后国际2-3代。
  • 互联瓶颈:节点内GPU间通信是国产与NVIDIA差距最大的环节之一。
  • 客户集中度:寒武纪96%营收依赖字节跳动, 风险极高。
  • Intel/Graphcore教训:软件生态不成熟+部署复杂可直接导致商业失败。

数据截止日期: 2026年5月21日。部分规划产品参数为业界预测值,实际以官方发布为准。

主要信息来源: NVIDIA/AMD/Google/Amazon/Microsoft/Meta官方技术博客和白皮书, MLPerf v5.1/v6.0结果, ISSCC/Hot Chips会议论文, 各公司财报与招股书, 行业研报与技术媒体。

2026年全球AI芯片全景调研:从NVIDIA Rubin到国产昇腾950PR
https://infra.simphoni.uk/posts/ai-chip-survey-2026/
作者
Jingze Xing
发布于
2026-05-21
许可协议
CC BY-NC-SA 4.0