注意: 本文所有数据均来源于各厂商官方发布、技术白皮书、MLPerf等独立基准测试及行业研报,截止日期为2026年5月。文中所述性能均指理论峰值,实际吞吐量受模型架构、软件栈优化、集群规模等多因素影响。除非特别标注,算力数据均为稠密(Dense)性能。
目录
引言
2025-2026年是AI芯片产业剧烈变革的两年。NVIDIA凭借Blackwell Ultra和Vera Rubin继续领跑,但AMD的CDNA 4/MI355X在推理性价比上首次实质性逼近;Google TPU v7 Ironwood以42.5 EFLOPS的超大规模集群彰显自研芯片的威力;国产阵营中华为昇腾950PR承载了DeepSeek V4脱离CUDA的历史性突破,阿里真武M890、寒武纪思元690、摩尔线程MTT S5000等纷纷进入大规模商用阶段。
本文试图从矩阵算力(各精度Dense/Sparse)、向量算力、HBM带宽与容量、节点内通信带宽、PCIe接口、硬件架构/编程模型、实际部署可用性七个维度,对20+家厂商的40+款芯片进行系统性调研。
国际厂商
NVIDIA
NVIDIA当前产品线覆盖Hopper(H100/H200)、Blackwell(B200/GB200)、Blackwell Ultra(B300/GB300)和2026年下半年的Vera Rubin四代架构。
Hopper架构:H100 / H200
GH100芯片基于台积电4N定制工艺,800亿晶体管,814 mm² die面积。
| 参数 | H100 SXM (700W) | H100 PCIe (350W) | H200 SXM (700W) |
|---|---|---|---|
| SM数量 | 132 / 144(完整) | 114 | 132 |
| CUDA Core (FP32) | 16,896 | 14,592 | 16,896 |
| Tensor Core (第4代) | 528 | 456 | 528 |
| Transformer Engine | 第1代 (FP8) | 同 | 同 |
| FP64 Vector | 34 TFLOPS | 26 TFLOPS | 34 TFLOPS |
| FP32 Vector | 67 TFLOPS | 51 TFLOPS | 67 TFLOPS |
| FP64 Tensor Dense | 67 TFLOPS | 51 TFLOPS | 67 TFLOPS |
| TF32 Tensor Dense | 494 TFLOPS | 378 TFLOPS | 494 TFLOPS |
| TF32 Tensor Sparse (2:4) | 989 TFLOPS | 756 TFLOPS | 989 TFLOPS |
| FP16/BF16 Tensor Dense | 989 TFLOPS | 756 TFLOPS | 989 TFLOPS |
| FP16/BF16 Tensor Sparse | 1,979 TFLOPS | 1,513 TFLOPS | 1,979 TFLOPS |
| FP8 Tensor Dense | 1,979 TFLOPS | 1,513 TFLOPS | 1,979 TFLOPS |
| FP8 Tensor Sparse | 3,958 TFLOPS | 3,026 TFLOPS | 3,958 TFLOPS |
| INT8 Tensor Dense | 1,979 TOPS | 1,513 TOPS | 1,979 TOPS |
| INT8 Tensor Sparse | 3,958 TOPS | 3,026 TOPS | 3,958 TOPS |
| HBM容量 | 80 GB HBM3 | 80 GB HBM3 | 141 GB HBM3e |
| HBM带宽 | 3.35 TB/s | 2.0 TB/s | 4.8 TB/s |
| NVLink | 第4代, 900 GB/s (18链路) | 600 GB/s (仅NVL桥接) | 900 GB/s |
| PCIe | Gen5 x16 (128 GB/s) | Gen5 x16 (128 GB/s) | Gen5 x16 (128 GB/s) |
| DGX配置 | 8×H100, 640 GB HBM3 | — | 8×H200, 1,128 GB HBM3e |
Hopper架构的关键创新包括第4代Tensor Core、TMA(Tensor Memory Accelerator)异步数据传输、WGMMA(warp-group级别矩阵乘法)指令及FP8 Transformer Engine的动态精度缩放。第4代NVSwitch(3.2 TB/s双向芯片带宽)支持单NVLink域内最多256颗GPU的全互联。
来源: NVIDIA Hopper Architecture Whitepaper, NVIDIA H100 Product Page, NVIDIA H200 Product Page, NVSwitch Technical Blog
Blackwell架构:B200 / GB200
Blackwell采用双reticle设计(两个104B晶体管的die通过NV-HBI 10 TB/s桥接为统一GPU),基于台积电4NP增强工艺,总计2080亿晶体管。
| 参数 | B200 (1000W) | GB200 Superchip (2×B200 + Grace) |
|---|---|---|
| SM数量 | ~148 | 2×~148 |
| CUDA Core (FP32) | ~18,944 | 2×~18,944 |
| Tensor Core (第5代) | 592 | 2×592 |
| Transformer Engine | 第2代 (FP4/FP6/FP8) | 同 |
| FP64 Vector | ~40 TFLOPS | ~80 TFLOPS |
| FP32 Vector | ~80 TFLOPS | ~160 TFLOPS |
| FP64 Tensor Dense | ~40 TFLOPS | ~80 TFLOPS |
| TF32 Tensor Dense | 1,125 TFLOPS | 2,250 TFLOPS |
| FP16/BF16 Tensor Dense | 2,250 TFLOPS | 5,000 TFLOPS |
| FP16/BF16 Tensor Sparse (2:4) | 4,500 TFLOPS | 10,000 TFLOPS |
| FP8 Tensor Dense | 4,500 TFLOPS | 10,000 TFLOPS |
| FP8 Tensor Sparse | 9,000 TFLOPS | 20,000 TFLOPS |
| NVFP4 Tensor Dense | 9,000 TFLOPS | 20,000 TFLOPS |
| NVFP4 Tensor Sparse | 18,000 TFLOPS | 40,000 TFLOPS |
| INT8 Tensor Dense | 4,500 TOPS | 10,000 TOPS |
| HBM容量 | 192 GB HBM3e | 384 GB HBM3e |
| HBM带宽 | 8 TB/s | 16 TB/s (合并) |
| NVLink | 第5代, 1.8 TB/s | 同 |
| NVLink-C2C (CPU-GPU) | — | 900 GB/s |
| PCIe | Gen5 x16 (128 GB/s) | — |
Blackwell Ultra (B300/GB300, 2025年下半年):
| 参数 | B300 | GB300 NVL72 |
|---|---|---|
| NVFP4 Dense | 15 PFLOPS (B200的1.5倍) | — |
| FP8 Dense | 5 PFLOPS | — |
| HBM容量 | 288 GB HBM3e | 20.7 TB (72×288 GB) |
| HBM带宽 | 8 TB/s | 576 TB/s聚合 |
| NVLink | 第5代, 1.8 TB/s | 130 TB/s (18颗NVSwitch) |
| SFU (Attention) | 10.7 TeraExponentials/s (B200的2倍) | — |
| TDP | 1,400W | 液冷 |
| 机架算力 | — | 1.1 EFLOPS FP4 |
GB200 NVL72 超节点: 72颗B200 GPU + 36颗Grace CPU,总计13.5 TB HBM3e、576 TB/s总显存带宽。18颗NVSwitch(9 tray)提供130 TB/s无阻塞all-to-all全互联,72颗GPU作为统一加速器呈现。单机架FP4推理算力达1.44 EFLOPS,功耗~120 kW,液冷。
DGX SuperPOD (B200): 8×GB200 NVL72 = 576颗GPU,>1 PB/s NVLink域,11.5 EFLOPS FP4。
Blackwell关键架构创新:
- 第5代Tensor Core:原生支持NVFP4(E2M1+微张量共享指数)、MXFP4(OCP标准f4E2M1FN)、MXFP6(f6E2M3FN/f6E3M2FN)、FP6(E3M2/E2M3)
- 微张量缩放(Micro-Tensor Scaling):每32元素块共享E8M0缩放因子,实现低精度下的高动态范围
- TMEM(Tensor Memory):每SM专用片上张量内存,与共享内存分离
- NV-HBI:10 TB/s片间互联将两个die统一为单颗CUDA GPU
- 解压缩引擎:800 GB/s吞吐量
来源: NVIDIA Blackwell Technical Blog, NVIDIA GB200 NVL72, Blackwell Microbenchmarking (arXiv:2512.02189), NVIDIA Blackwell Ultra Blog
Vera Rubin架构 (2026年下半年)
CES 2026发布的下一代平台,台积电3nm工艺,GPU部分3360亿晶体管。
| 参数 | Vera Rubin GPU |
|---|---|
| NVFP4 Dense (推理) | 50 PFLOPS (Blackwell的5倍) |
| NVFP4 Dense (训练) | 35 PFLOPS (Blackwell的3.5倍) |
| FP8/FP6 训练 | ~14+ PFLOPS |
| HBM容量 | 288 GB HBM4 |
| HBM带宽 | 22 TB/s (Blackwell的2.8倍) |
| NVLink | 第6代, 3.6 TB/s per GPU |
| NVLink-C2C | 1.8 TB/s (到Vera CPU) |
| Vera CPU | 88×Olympus ARM核心 (Armv9.2), 176线程, 1.5 TB LPDDR5X |
| 机架系统 | Vera Rubin NVL72: 3.6 EFLOPS FP4推理, 2.5 EF训练 |
| 能效 | 每token成本为Blackwell的1/10 |
实际使用情况
NVIDIA GPU是全球AI训练和推理的事实标准:
- GPT-4:~25,000颗A100训练
- Llama 3 405B (Meta):16,384颗H100训练,54天
- DeepSeek V3/R1:~2,048颗H800训练,成本约$5.58M
- Grok (xAI):~100,000颗H100 Colossus集群
- GB200 NVL72已在CoreWeave、Azure部署
软件栈
| 组件 | 用途 |
|---|---|
| CUDA | 通用并行计算平台,Compute Capability 9.0(Hopper)/10.0(Blackwell) |
| cuDNN / cuBLAS | 深度神经网络/线性代数库 |
| NCCL | 多GPU集合通信库 |
| TensorRT-LLM | 最高单GPU推理吞吐 |
| Megatron-LM / NeMo | 大规模分布式训练 (5D并行) |
| vLLM | 开源LLM推理引擎 (PagedAttention) |
| SGLang | 多轮对话/Agent推理优化 (RadixAttention) |
| DeepSpeed | ZeRO优化分布式训练/推理 |
| verl | RLHF/PPO训练管线 |
| Triton | 高性能内核编写编译器 |
AMD
AMD Instinct产品线:MI300X (CDNA 3, 2024) → MI355X (CDNA 4, 2025下半年) → MI400 (CDNA Next, 2026)。
MI300X (CDNA 3, 当前主力)
台积电5nm (XCD) + 6nm (IOD), ~1,530亿晶体管, 304个CU, 19,456个流处理器。
| 精度 | Dense | Sparse (2:4) |
|---|---|---|
| FP64 Matrix | 163.4 TFLOPS | — |
| FP32 Matrix | 163.4 TFLOPS | — |
| FP64 Vector | 81.7 TFLOPS | — |
| FP32 Vector | 81.7 TFLOPS | — |
| TF32 | 653.7 TFLOPS | 1,307.4 TFLOPS |
| FP16/BF16 | 1,307.4 TFLOPS | 2,614.9 TFLOPS |
| FP8 | 2,614.9 TFLOPS | 5,229.8 TFLOPS |
| INT8 | 2,614.9 TOPS | 5,229.8 TOPS |
| 参数 | 值 |
|---|---|
| HBM | 192 GB HBM3, 5.3 TB/s |
| Infinity Cache | 256 MB |
| GPU间互连 | 第4代Infinity Fabric, 7链路全网状, 每链路128 GB/s |
| 总GPU间带宽 | ~896 GB/s (每GPU) |
| PCIe | Gen5 x16 (128 GB/s) |
| TBP | 750W |
| 8-GPU平台 | 1.5 TB HBM3, 42.4 TB/s聚合带宽 |
MI300X的FP64向量性能(81.7 TFLOPS)为H100(34 TFLOPS)的2.4倍,在HPC工作负载中具备显著优势。但GPU间带宽(128 GB/s/链路)仅为NVLink 4(900 GB/s总)的约七分之一,多GPU扩展受限。
MI355X (CDNA 4, 2025下半年)
台积电N3P (XCD) + N6 (IOD), ~1,850亿晶体管, 256个CU (有意减少), 16,384个流处理器。
| 精度 | Dense | Sparse |
|---|---|---|
| FP64 Matrix | 78.6 TFLOPS | — |
| FP32 Matrix | 157.3 TFLOPS | — |
| FP64 Vector | 78.6 TFLOPS | — |
| FP32 Vector | 157.3 TFLOPS | — |
| FP16/BF16 | 2.5 PFLOPS | 5.0 PFLOPS |
| FP8 (OCP E4M3/E5M2) | 5.0 PFLOPS | 10.1 PFLOPS |
| MXFP6 | 10.1 PFLOPS | — |
| MXFP4 | 10.1 PFLOPS | — |
| INT8 | 5.0 POPS | 10.1 POPS |
| 参数 | MI350X (风冷) | MI355X (液冷) |
|---|---|---|
| HBM | 288 GB HBM3e | 288 GB HBM3e |
| HBM带宽 | 8.0 TB/s | 8.0 TB/s |
| Infinity Fabric | 第4代增强, 7链路 | 同 |
| 每链路带宽 | 153.6 GB/s | 153.6 GB/s |
| 总GPU间带宽 | ~1,075 GB/s | ~1,075 GB/s |
| PCIe | Gen5 x16 (128 GB/s) | 同 |
| TBP | 1,000W | 1,400W |
CDNA 4关键创新: 每CU矩阵吞吐量翻倍(FP8从4096增至8192 FLOPS/周期),LDS扩大至160 KB/CU(2.5倍),原生MXFP4/MXFP6支持,I/O die从4个合并为2个。CU数从304减至256是为了2次幂分块优化。
MLPerf Inference v5.1(FP4提交):
- Llama 2 70B离线 (8×MI355X):93,045 tokens/s,比B200快41%,比H200快196%
- Llama 3.1 405B离线 (8-GPU):2,109 tokens/s,比GB200快27%
独立基准(Signal65/SemiAnalysis,2025): 芯片级MI355X在DeepSeek-R1上比B200快1.2倍。但多GPU扩展受限于Infinity Fabric,GB200 NVL72的NVLink域在DeepSeek-R1上领先最高28倍。
来源: AMD MI355X Product Page, AMD MLPerf Inference v5.1, AMD MLPerf Training v5.1, CDNA 4 ISA Details
MI400系列 (CDNA Next/UDNA, 2026下半年)
台积电N2 (2nm) 计算芯片 + N3P I/O/中介层, ~3,200亿晶体管 (MI455X), CoWoS-L封装。
| 参数 | MI455X (旗舰) | MI430X (HPC) |
|---|---|---|
| FP4 Dense | 40 PFLOPS | — |
| FP8 Dense | 20 PFLOPS | — |
| FP16/BF16 Dense | 10 PFLOPS | — |
| FP64 | 部分支持 | 完整原生FP64 |
| HBM | 432 GB HBM4 | 待定 |
| HBM带宽 | 19.6 TB/s | 待定 |
| TDP | 1,500-1,800W (液冷) | 待定 |
| GPU间互连 | UALink (每GPU 300 GB/s) | 同 |
Helios 机架系统: 72×MI455X + 18×Zen 6 EPYC “Venice” (2nm, 256核/颗), 31 TB HBM4总容量, 1.4 PB/s聚合带宽, 2.9 EFLOPS FP4推理, UALink开放标准互连。
实际部署
- Meta:MI300X用于Llama 405B专属推理
- Microsoft Azure:ND MI300X v5 VM系列,用于GPT-4推理
- OpenAI:多年协议,2026下半年起部署1 GW MI450
- Oracle Cloud:部署MI300X用于训练和推理,宣布MI355X实例
- xAI、Character.AI、Cohere、IBM:大规模采用
- AMD声称全球前10大AI公司中7家在用Instinct GPU
软件栈:ROCm 7
ROCm完全开源。ROCm 7.0 (2025 Q3) 提供原生FP4/FP6/FP8支持,推理性能较ROCm 6提升3.5倍。PyTorch已是最成熟的框架,通过HIP可编译90%+的CUDA内核。vLLM和SGLang有官方ROCm镜像,DeepSpeed、JAX、Triton均已支持。Megatron-LM兼容性持续改善。
剩余差距: 开发者习惯(CUDA锁定)、库成熟度(cuDNN/TensorRT无精确替代品)、安装复杂度、企业信任度。
Google TPU
Google TPU已发展到第七代,从v1 (92 TOPS) 到v7 (4,614 TFLOPS FP8),性能提升3,600倍+。
TPU v6 “Trillium” (2024, 当前量产)
| 参数 | 值 |
|---|---|
| BF16 Dense (单芯片) | 918 TFLOPS |
| INT8 Dense (单芯片) | 1,836 TOPS |
| FP8 Dense (估算) | ~1.8 PFLOPS (2× BF16) |
| MXU尺寸 | 256×256 脉动阵列 (v5e的4倍) |
| HBM | 32 GB, ~1.64 TB/s (v5e的2倍) |
| ICI (芯片间互连) | 双向3.2 Tb/s (聚合), 4端口/芯片 |
| TDP | ~150W (能效比v5e提升67%) |
| Pod | 256芯片 (2D环面拓扑), BF16 234.9 PFLOPS |
| 代际提升 | 相对v5e: 4.7倍性能 |
| 主要客户 | Anthropic签约数十万片 (2027年扩至100万片) |
关于稀疏性: TPU的MXU仅处理稠密矩阵乘法,无2:4结构化稀疏支持。SparseCore(第3代) 是专用数据流加速器,用于推荐系统的嵌入查找(随机/细粒度内存访问),而非稀疏矩阵乘法。SparseCore与MXU协同工作:嵌入在SparseCore上,稠密变换在MXU上。
TPU v7 “Ironwood” (2025年4月发布, 2025年11月GA)
| 参数 | 值 |
|---|---|
| FP8 Dense (单芯片) | 4,614 TFLOPS (~4.6 PFLOPS) |
| HBM容量 | 192 GB HBM3E (v6的6倍) |
| HBM带宽 | 7.2-7.4 TB/s (v6的4.5倍) |
| ICI | 双向1.2 Tb/s (v6的1.5倍), 聚合9.6 Tb/s |
| TDP | ~980-1,000W |
| 制程/封装 | 3D堆叠混合键合 (逻辑与内存层10μm间距) |
| 每瓦性能 | v6e的2倍 |
架构亮点:
- FlexCore 计算核心:4,096 MAC单元/核心, 支持FP32/FP16/BF16/FP8混合精度, 64 MB L3/核心 (向量引擎), MXU为512×512有效阵列 (FP8模式)
- 第4代SparseCore:不仅处理嵌入查找,还能卸载集合通信操作(All-Gather、Reduce-Scatter),实现计算与通信接近完美重叠(减少15-22%训练步时间)
- 硅光子互联 (OCS):片上直接集成激光器和调制器, 波分复用, 单链路1.6 TB/s, 延迟从
20μs降至5μs(↓75%)。光电路交换动态路由芯片间通信,是9,216芯片SuperPod的关键使能技术 - 双设备编程模型:从MegaCore单核→双TPU设备直接访问
SuperPod (9,216芯片):42.5 EFLOPS FP8, 总HBM ~1.77 PB。对比Frontier超算(1.7 EF)达24倍以上。
实际使用:
- Gemini系列模型训练和推理
- Anthropic Claude部分工作负载已运行在Ironwood
- Midjourney迁移至TPU v6e后推理成本降低65%
软件栈: JAX(主力)、TensorFlow、PyTorch/XLA。vLLM通过XLA后端支持。Google Cloud提供TPU实例。TPU单位美元性能为GPU的1.4倍。
来源: Google Ironwood Announcement, Google TPU vs NVIDIA Framework, Ironwood Deep Dive
Amazon AWS Trainium
Trainium 2 (2024年12月GA)
| 精度 | Dense | Sparse (2:4结构化) |
|---|---|---|
| FP8 (cFP8) | 1,299 TFLOPS | 2,563 TFLOPS |
| BF16 / FP16 / TF32 | 667 TFLOPS | 2,563 TFLOPS |
| FP32 | 181 TFLOPS | — |
| 参数 | 值 |
|---|---|
| 架构 | 8×NeuronCore-v3/芯片 |
| HBM | 96 GB HBM3, 2.9 TB/s |
| DMA带宽 | 3.5 TB/s (带在线压缩/解压缩) |
| 互联 | NeuronLink-v3, 1.28 TB/s/芯片 (3D环面) |
| 集合通信 | 16个CC-Core/芯片 |
| 制程 | 台积电5nm |
| Trn2 UltraServer (64芯片) | 83.2 PFLOPS FP8, 6 TB HBM3, 185 TB/s聚合带宽 |
Project Rainier:~50万颗Trainium2,全球最大非NVIDIA AI集群,为Anthropic Claude训练提供算力。截至2026年初总部署约140万颗。
Trainium 3 (2025年12月GA)
| 精度 | Dense | Sparse (多模式: 4:16/4:12/4:8/2:8/2:4/1:4/1:2) |
|---|---|---|
| MXFP8 / MXFP4 | 2,517 TFLOPS (共享峰值, MXFP4计算前转为MXFP8) | — |
| FP8 | 2,517 TFLOPS | — |
| BF16 / FP16 / TF32 | 671 TFLOPS | 2,517 TFLOPS |
| FP32 | 183 TFLOPS | — |
| 参数 | 值 |
|---|---|
| 制程 | 台积电3nm (AWS首款3nm芯片) |
| 架构 | 8×NeuronCore-v4/芯片 |
| HBM容量 | 144 GB HBM3e (Trn2的1.5倍) |
| HBM带宽 | 4.9 TB/s (Trn2的1.7倍) |
| SBUF (暂存缓冲) | 256 MiB/芯片 |
| 互联 | NeuronLink-v4, 2.56 TB/s/芯片 (Trn2的2倍) |
| 拓扑 | NeuronSwitch-v1 (全对全拓扑, 取代环面, 针对MoE优化) |
| UltraServer Gen2 (144芯片) | 362 PFLOPS FP8, 20.7 TB HBM3e, 705.6 TB/s聚合带宽 |
| 能效 | 每瓦性能为Trn2的4倍, 每兆瓦token数5倍 |
实际性能: Anthropic Claude生产工作负载已运行在Trainium3。Decart实时生成视频推理4倍加速,成本为GPU的一半。Amazon Bedrock通过Trainium3提供推理流量。
软件栈: Neuron SDK(含PyTorch、Triton、JAX、vLLM支持),Neuron Kernel Library。
来源: AWS Trainium3 UltraServers, AWS Trainium Ecosystem Guide, Trainium3 vs NVIDIA
Microsoft Maia
Maia 200 (2026年1月发布, 已部署)
| 参数 | 值 |
|---|---|
| 制程 | 台积电3nm, >1,400亿晶体管 |
| FP4 Dense | 10,145 TFLOPS (~10 PFLOPS) |
| FP8 Dense | 5,072 TFLOPS (~5 PFLOPS) |
| HBM容量 | 216 GB HBM3e |
| HBM带宽 | ~7 TB/s |
| 片上SRAM | 272 MB |
| Scale-Up带宽 | 2.8 TB/s双向 (每加速器) |
| 互联方式 | 标准以太网 (非私有协议), 自研Maia AI传输协议 |
| TDP | 750W (SoC) |
| 最大集群 | 6,144加速器 |
| 散热 | 第2代闭环液冷 |
实际部署:
- 已部署于Azure US Central (Des Moines) 和 US West 3 (Phoenix)
- 驱动OpenAI GPT-5.2推理、Microsoft 365 Copilot、内部Superintelligence团队工作负载
- 微软声称比同集群最新硬件性价比高30%
软件栈: Maia SDK (预览),含PyTorch集成、Triton编译器、优化内核库、NPL低层编程语言、模拟器和成本计算器。
Meta MTIA
MTIA v2 (2025年部署, 2026年3月公开)
| 参数 | 值 |
|---|---|
| 制程 | 5nm, ~421 mm² |
| INT8 Dense | 354 TOPS |
| FP16 Dense | 177 TFLOPS |
| 频率 | 1.35 GHz |
| 片上SRAM | 256 MB (2.7 TB/s带宽) |
| 每PE本地存储 | 384 KB (1 TB/s带宽) |
| 外部内存 | LPDDR5 (非HBM), 容量为v1的2倍 |
| 互联 | PCIe Gen5 (芯片间和主机间) |
| TDP | 90W |
| 机架系统 | 72加速器/机架 (3机箱×12板卡×2加速器) |
代际提升 (vs v1): Dense性能3.5倍, Sparse性能7倍, SRAM容量翻倍/带宽3.5倍。
实际使用: 已部署于Meta数据中心,服务排序推荐、广告模型和GenAI工作负载。Meta表示两年内迭代了四代,目前正推进扩展至LLM和多模态模型。
软件栈: 自研编译器和运行时,PyTorch集成。目前主要面向Meta内部工作负载,不对外商用。
Intel Gaudi 3 & Jaguar Shores
Gaudi 3 (2024 Q4 GA, 当前产品)
台积电5nm, 64个第5代TPC, 8个MME (256×256 MAC阵列)。
| 参数 | 值 |
|---|---|
| FP8 Dense (MME) | 1,835 TFLOPS |
| BF16 Dense (MME) | 1,835 TFLOPS |
| BF16 Vector (TPC) | 28.8 TFLOPS |
| HBM容量 | 128 GB HBM2e |
| HBM带宽 | 3.7 TB/s |
| 片上SRAM | 96 MB (19.2 TB/s) |
| 网络 | 24×200 GbE RDMA (RoCE v2), 1.2 TB/s双向 |
| PCIe | Gen5 x16 (128 GB/s) |
| TDP | 900W (OAM风冷) / 1,200W (液冷) / 600W (PCIe) |
| 最大集群 | 8,192加速器 (1,024节点) |
为什么不成功:
- 2024年$500M营收目标未达成
- 2025年出货目标下调30%
- SynapseAI软件栈落后CUDA约15年
- Falcon Shores于2025年1月取消商业化
Jaguar Shores (2026年, 唯一未来赌注)
| 规划参数 | 值 |
|---|---|
| 制程 | Intel 18A (RibbonFET GAA + PowerVia背面供电) |
| 封装 | 测试芯片显示4计算tile + 8 HBM4堆叠 |
| 目标 | 机架级AI数据中心方案 |
| 时间线 | 2026 H1设计定稿, H2量产 |
Intel已从卖独立加速芯片全面转向机架级系统方案,直接对标NVIDIA NVL72路线。Habana Labs主导Jaguar Shores开发。
来源: Intel Gaudi 3 Launch, Intel Cancels Falcon Shores, Jaguar Shores
Groq LPU
Groq由前Google TPU设计师Jonathan Ross创立,2025年底被NVIDIA以~$170B收购。LPU采用确定性VLIW数据流架构,完全不使用HBM/DRAM/Cache——所有内存为片上SRAM。
Groq 3 LPU (LP30, 三星SF4X 4nm, 2026下半年)
| 参数 | 值 |
|---|---|
| 制程 | 三星SF4X (4nm), ~980亿晶体管 |
| FP8 Dense | 1.2 PFLOPS |
| INT8 | 支持, >400K MAC/周期/芯片 |
| 片上SRAM | 500 MB |
| SRAM带宽 | ~150 TB/s |
| C2C链路 | 96 lane × 112 Gbps = ~2.5 TB/s双向/芯片 |
| 向量宽度 | 320字节原子单元 |
| PCIe | Gen5 |
| FP4/MX4 | LPU v3不支持, 待LP35 (预计2027) |
- 无稀疏计算。 LPU架构不做稀疏——所有计算为稠密。
- 无HBM、无DRAM、无Cache。 SRAM是唯一内存,编译器显式放置所有数据。
- 确定性执行: 无动态调度、无乱序执行、无分支预测。P99延迟=P50延迟。最差情况抖动±3μs。芯片利用率可达98%(GPU通常<40%)。
LPX机架系统(256颗Groq 3 LPU):
| 参数 | 值 |
|---|---|
| 总SRAM | 128 GB |
| 聚合SRAM带宽 | 40 PB/s |
| FP8算力 | 315 PFLOPS |
| Scale-Up带宽 | 640 TB/s |
| 拓扑 | Dragonfly无交换, 最多10,440颗TSP, 任意两芯片最多5跳 |
实际推理性能(部分在v1/v2上):
- Llama 3.1 8B: 840 tok/s
- GPT-OSS 20B: 1,000 tok/s
- Llama 4 Scout: 594 tok/s
- Qwen3 32B: 662 tok/s
- Whisper V3: 217-228倍实时转录
- 能耗: ~1-3 Joules/token (H100: 10-30 J)
NVIDIA整合策略: Groq 3 LPU并非替代GPU,而是补充推理decoding。AFD (Attention-FFN Disaggregation):Rubin GPU处理prefill/attention/KV-cache,LPU处理FFN/MoE decode,万亿参数模型decoding达1,500+ tok/s。
软件栈: MLIR前端 + Haskell (DSL “Haste”) 后端。不支持Triton——Triton的动态内核编译模型与确定性VLIW数据流架构不兼容。编译器预计算完整执行图(含所有芯片间通信),精确到时钟周期。
Cerebras WSE-3
整张300 mm晶圆作为一个芯片——不切割、无片间互连。台积电5nm, 4万亿晶体管, 46,225 mm² (21.5×21.5 cm)。
| 参数 | WSE-3 | 对比 H100 倍数 |
|---|---|---|
| AI核心 | 900,000 | — |
| 片上SRAM | 44 GB (每核48 KB) | — |
| SRAM带宽 | 21 PB/s | 7,000× |
| 晶圆上Fabric带宽 | 214 Pb/s | — |
| FP16 Dense | 125 PFLOPS (WSE-3) | — |
| CS-3系统功耗 | ~23 kW (15U, 水冷) | — |
| MemoryX (外部) | 高达1.5 PB/系统 | — |
| 最大集群 | 2,048 CS-3 = 256 EFLOPS FP16 | — |
| 最大模型 | 24万亿参数 (无需模型并行) | — |
稀疏计算: 硬件原生支持——SLAC(稀疏线性代数核心)自动跳过零值,利用率比GPU高3-4倍。
Weight Streaming架构: 模型权重存储在片外MemoryX中,按需流式传输到片上SRAM。1万亿参数模型的训练与1B参数模型在GPU上一样直接——纯数据并行,无需模型并行/流水线并行。
实际使用:
- OpenAI:$200亿+主协议,750 MW推理容量(2026-2028),可扩展至2 GW (2030)。主要用例为Codex Spark自主编程Agent。
- AWS:CS-3集成到Amazon Bedrock,Trainium3处理prefill + CS-3处理decode,推理速度达同构GPU方案的15倍。
- G42 (阿布扎比):Condor Galaxy 1/2/3超算,贡献2025年86%营收。
- Llama 4 Maverick (400B):2,500 tok/s/用户——比DGX B200快2倍+。
- Llama 3 70B推理:比B200快最高21倍,TCO低32%。
软件栈: CSoft平台,原生PyTorch 2.0支持,Cerebras Model Zoo。GPT-3级别模型只需565行代码(比GPU少97%)。
来源: Cerebras WSE-3 Announcement, Cerebras IPO Analysis, Cerebras Architecture Guide
SambaNova RDU
SambaNova的RDU(可重构数据流单元)采用空间并行——将计算图映射到硬件上,融合数百个操作到单个内核中。
SN40L (第4代, 台积电5nm, 当前)
| 参数 | 值 |
|---|---|
| 晶体管 | 1,020亿 (双die, CoWoS-S) |
| BF16 Dense | 638 TFLOPS |
| 三级内存: | |
| Tier 1 (片上SRAM) | 520 MB 分布式 |
| Tier 2 (封装内HBM3) | 64 GB |
| Tier 3 (外挂DDR5) | 高达1.5 TB |
| 最大模型 | 5万亿参数 (单节点) |
| 最大上下文 | 256K+ tokens |
| 机架功耗 | ~10 kW (16 RDU, 风冷) |
SN50 (第5代, 2026下半年)
| 参数 | 值 |
|---|---|
| BF16 Dense | 1.6 PFLOPS (SN40L的2.5倍) |
| FP8 Dense | 3.2 PFLOPS (SN40L的5倍) |
| 片上SRAM | 432 MB/RDU |
| HBM | 64 GB HBM2E @ 1.8 TB/s |
| DDR5 | 256 GB-2 TB/RDU |
| 互联 | 2.2 TB/s双向/RDU, 最多256加速器 |
| 最大模型 | 10万亿+参数 |
| 最大上下文 | 1,000万+ tokens |
| 机架 | SambaRack SN50: 16×SN50, ~20 kW, 风冷 |
Agentic Caching: 输入token缓存在内存中,减少prefill处理和TTFT。模型可毫秒级热切换。
实际部署: SoftBank(首个SN50客户,日本AI数据中心),Intel战略合作(Intel CEO为SambaNova执行主席)。DeepSeek R1 671B和Llama 4 Maverick可在单机架上运行。
来源: SambaNova SN40L RDU, SambaNova SN50 Launch, SambaNova Intel Partnership
Tenstorrent Blackhole
Jim Keller领导, RISC-V架构, 刻意不使用HBM(使用GDDR6+大SRAM降低成本)。
Blackhole p150 (6nm, 当前出货)
| 参数 | 值 |
|---|---|
| Tensix核心 | 120 (固件v19.5.0后从140降级) |
| BlockFP8 Dense | 664 TFLOPS |
| 片上SRAM | 180 MB |
| GDDR6 | 32 GB, 512 GB/s |
| 网络 | p150a: 4×QSFP-DD 800G被动 |
| PCIe | Gen5 x16 |
| TBP | 300W |
| 价格 | $1,299 |
- 所有计算为稠密——无稀疏Tensor Core声明。
- 支持的格式:FP8, FP16, BF16, FP32(输出), FP64(RISC-V), BlockFP2/FP4/FP8, INT8/16/32/64, TF32。
TT-QuietBox 2 (桌面AI工作站, 2026 Q2):
- 4×Blackhole处理器, 480个Tensix核心, 2,654 TFLOPS BlockFP8
- 128 GB GDDR6总 + 256 GB DDR5系统内存
- 液冷, ~1,400W, $9,999起
- Llama 3.1 70B: 476.5 tok/s
全开源软件栈: TT-Metalium (底层SDK), TT-NN (PyTorch风格算子库), TT-Forge (MLIR编译器), TT-XLA (PyTorch/JAX前端)。PyTorch、ONNX、TensorFlow、JAX、PaddlePaddle均支持。
Graphcore Bow IPU
2024年7月被软银以$5-6亿收购。当前旗舰仍是Bow IPU(Colossus MK2),台积电7nm + 3D WoW, ~600亿晶体管, 1,472个IPU-Core tile。
| 参数 | 值 |
|---|---|
| 片上SRAM | 900 MB (每tile 624 KB) |
| SRAM带宽 | 65 TB/s |
| 混合精度AI | 350 TFLOPS |
| Bow-2000 (4 IPU, 1U) | 1.4 PFLOPS, 5,888核, 35,000+线程, 3.6 GB总片上内存 |
| 外挂DDR | 高达256 GB Streaming Memory |
架构特色: MIMD (每tile独立指令流), 非SIMT。In-Processor-Memory范式——所有权重和激活值可完全驻留在片上。
实际应用领域:
- GNN (主要利基):NeurIPS 2022 OGB-LSC第一名。时序GNN比A100快10倍。
- 药物发现:LabGenius抗体发现从1月缩短至2周
- 分子属性预测:Graphium库,>8,600万分子
- DNA/蛋白序列比对:X-Drop算法比A100快10倍
状态: 软银收购后尚无新芯片发布,2025年4月注资$4.57亿。
国产厂商
华为昇腾
华为昇腾是国内生态最完善的AI芯片厂商,已形成910B→910C→950PR/DT三代产品线。2025年累计出货约81.2万片,市占率~20%,国产第一。
昇腾910B / 910C
| 参数 | 910B | 910C |
|---|---|---|
| FP16 Dense | ~256-280 TFLOPS | ~640-781 TFLOPS (双Die) |
| HBM | 64 GB HBM2e, ~768 GB/s | 128 GB HBM, 3.2 TB/s |
| 制程 | 7nm | 7nm (双Die封装) |
| 互联 | HCCS | HCCS增强 |
- 910B训练效率达A100的~80%。
- 910C在DeepSeek推理中达H100的~60%性能。
- CloudMatrix 384超节点:384颗910C, DeepSeek-R1推理Prefill 6,688 tok/s/卡, Decode 1,943 tok/s/卡。
昇腾950PR (2026 Q1商用, 推理专用) / 950DT (2026 Q4, 训练+推理)
| 参数 | 950PR | 950DT |
|---|---|---|
| FP8 Dense | ~1 PFLOPS | ~2 PFLOPS |
| FP4 Dense | 1.56 PFLOPS | 待公布 |
| HBM | 112 GB 自研HBM, 1.4 TB/s | 待公布 |
| TDP | 600W | 待公布 |
| 单卡性能 | H20的2.87倍 | — |
| 架构 | SIMD/SIMT同构设计 | 同 |
Atlas 950超节点: 最大支持8,192卡, FP8总8 EFLOPS, 总内存1,152 TB, 推理时延从50ms降至10ms。
昇腾970 (规划2028Q4): FP4目标8 PFLOPS。
实际使用——DeepSeek V4里程碑
2026年4月24日,DeepSeek V4成为全球首个完全脱离CUDA生态的万亿参数大模型。底层约40万个算子从CUDA重写为CANN架构,精度误差<0.5%。实测单卡Decode吞吐达4,700 TPS,推理成本降至NVIDIA方案的1/3。
软件栈
- CANN 9.0 (已全面开源):1,500+基础算子, 100+融合算子
- MindSpore:自研AI框架
- vLLM-Ascend (官方社区插件):遵循Hardware Pluggable架构, 支持LLaMA/Qwen/DeepSeek-V3/GLM-4
- SGLang:原生支持昇腾NPU, 提供PD分离部署
- PyTorch:华为维护的适配版本, 可一键转换CUDA代码
- 开发者生态超200万, 适配160+主流大模型, 服务600+企业
寒武纪
寒武纪思元系列是国产AI芯片第二大出货量。2025全年营收64.97亿元(+453%),首次年度盈利。极度依赖字节跳动(贡献96%营收)。
思元590 (7nm, 当前)
| 参数 | 值 |
|---|---|
| FP16 Dense | ~256-345 TFLOPS |
| HBM | 96 GB HBM2e |
| 性能定位 | A100的~80% |
在字节跳动推荐系统中大规模部署,运行LLaMA3 70B推理仅比A100慢18%,成本低45%。
思元690 (5nm, Chiplet双Die, 2026量产)
| 参数 | 值 |
|---|---|
| FP16 Dense | >700 TFLOPS (思元590的2倍) |
| HBM | 196 GB HBM3 |
| 双Die互联 | >890 GB/s |
| 价格 | ≥12万元/片 |
| 对标 | H100的80% |
| 适配 | DeepSeek V3.1 UE8MOFP8 |
实际部署: 火山引擎平台已部署超2万张思元690卡。8卡全互联集群日均支撑10亿次AIGC内容生成。腾讯混元大模型训练测试思元690集群,误差<3%。
边缘芯片: 思元220-M.2已嵌入TikTok智能推荐系统,东南亚市场延迟降30%。
软件栈: Cambricon Neuware (类似CUDA), torch_mlu (PyTorch动态图适配), 通过FlagScale框架优化。适配DeepSeek-V3.1、Qwen3、GLM-4.6。**vLLM暂无明显官方支持。**开发者社区约10万人(vs CUDA 400万),软件生态是最大短板。
阿里平头哥 真武PPU
阿里走全栈自研路线——“真武”PPU + “倚天”CPU + “磐脉”智能网卡 + “镇岳”存储主控 + ICN Switch互联芯片。
真武810E (2026年1月)
| 参数 | 值 |
|---|---|
| HBM | 96 GB HBM2e |
| 片间互联 | 700 GB/s |
| 性能定位 | 与NVIDIA H20相当 |
| 累计出货 | 60万+片 (截至2026 Q1) |
真武M890 (2026年5月20日发布)
| 参数 | 值 |
|---|---|
| HBM | 144 GB |
| 片间互联 | 800 GB/s |
| 精度 | FP32-FP4原生全精度 |
| 性能 | 810E的3倍 |
| 互联芯片 | 自研ICN Switch 1.0, P2P延迟<150纳秒 |
| 超节点 | 磐久AL128: 128张M890组成”一台计算机” |
实际使用: Qwen3.7-Max旗舰模型在真武M890上推理,35小时内完成1,158次自主工具调用,推理速度提升10倍。截至2026年Q1累计出货60万片,服务国家电网、小鹏汽车、中国电信等400+客户。
路线图: V900 (2027 Q3, 3倍性能), J900 (2028 Q3, 全新架构)。
软件栈: 阿里云”芯-云-模型-推理”全栈体系。通过阿里云弹性GPU实例提供算力。PyTorch深度适配。公开文档较少,以内部使用为主。
昆仑芯
百度自研,已发展三代(R300→P800→M100/M300)。
昆仑芯P800 (XPU架构, 当前主力)
- 已承载百度绝大多数AI推理任务
- 万卡集群训练ERNIE 5.1,有效训练率97%,线性扩展性>85%
昆仑芯M300 (7nm, 2027年初, 部分参数已公布)
| 参数 | 值 |
|---|---|
| FP16 Dense | 62.8 TFLOPS |
| HBM | HBM3E, 1.2 TB/s |
| 晶体管 | >500亿 (3D堆叠) |
| 计算单元 | 4,096个FP16单元 |
| 能效比 | 48.7 TOPS/W |
| 空闲功耗 | <15W (DVFS) |
| 可编程逻辑 | 20% FPGA区域 |
超节点: 天池256 (2026 H1, 单卡吞吐增3.5倍), 天池512 (2026 H2, 完成万亿参数模型训练)。
实际客户: 招商银行、南方电网、吉利、Vivo、中国移动(十亿级集采)等上百家客户。
软件栈: PaddlePaddle (一行代码切至XPU), vLLM-Kunlun Plugin (已开源, 支持20+模型), FastDeploy。百度智能云出租昆仑芯算力。
摩尔线程
国产全功能GPU路线,MUSA架构。2025年营收14.5-15.2亿元(+230%+)。
MTT S5000 (第四代”平湖”MUSA, 2024-2025主力)
| 参数 | 值 |
|---|---|
| FP8 Dense | 1,000 TFLOPS (1 PFLOPS) — 国产首款PFLOPS级 |
| 精度支持 | FP8 / FP16 / BF16 / TF32 / FP32 / FP64 全精度 |
| 显存 | 80 GB, 1.6 TB/s |
| 卡间互联 | 784 GB/s |
| 集群扩展效率 | 64→1024卡线性>90% |
| 训练MFU | Dense 60%, MoE 40% |
| 对标 | H100级别 |
DeepSeek 671B满血版推理(与硅基流动联合): Prefill >4,000 tok/s, Decode >1,000 tok/s (峰值1,024), 达H100同场景~61%实测性能。
夸娥万卡集群(KUAE 2.0): 10 EFLOPS总算力。
第五代”花港”架构 (2025年12月发布, 2026量产)
- 算力密度+50%, 能效提升10倍, 支持十万卡+集群
- “华山” (AI训推, FP4-FP64全精度, 万卡集群)
- “庐山” (渲染, 3A性能×15, AI×64, 光追×50)
软件栈——进展最迅猛的国产厂商
- MUSA 5.0:muDNN GEMM/FlashAttention效率>98%, 通信效率>97%
- Torch-MUSA:算子突破1,050个, 支持FlashAttention
- vLLM-MUSA:v1.3 prefill提10倍, 长上下文decode提3倍
- SGLang (2026年5月重大里程碑!):MUSA后端正式合入SGLang主线,47个PR已合入41个。支持DeepSeek(含V4)、Qwen3/3.5、GLM 4/5、MiniMax M2.5/M2.7
- 深度对接Triton/FlagOS和TileLang。摩尔线程是Mooncake核心Maintainer。
壁仞科技
2025年营收10.35亿元(+207%), 港交所上市。
壁砺166系列 (2025量产)
| 参数 | 值 |
|---|---|
| FP16 Dense | ~800 TFLOPS (双BR106裸晶Chiplet) |
| 显存 | 64 GB, 1.6 TB/s |
| 精度 | FP8/FP16 |
| 封装 | CoWoS 2.5D |
光跃超节点128卡商用版 (2026年3月):搭载壁砺166L液冷模组 + 曦智科技硅光OCS光交换 + 中兴AI服务器。
BR20X系列 (2026年计划)
5nm (台积电, 有制程受限风险), 原生FP8/FP4, 256 GB HBM3E, 2 TB/s互连, 640卡互联。
Day 0适配(最快记录): 腾讯混元Hy3 (295B MoE), Kimi K2.6 (1T MoE), GLM-5.1 (744B MoE), DeepSeek-V4, 中国移动九天35B等。
软件栈: BIRENSUPA (全自研), AIModelMaster (自研GPU全栈智能体实现Day 0极速适配), 500+模型开箱即用。
沐曦
营收三年30倍增长 (2023: 0.53亿→2025: 16.44亿)。
曦云C500 (2024量产)
| 参数 | 值 |
|---|---|
| FP16 Dense | ~240 TFLOPS |
| HBM | 64 GB HBM2e |
曦云C600 (2025底风险量产→2026 H1量产)
| 参数 | 值 |
|---|---|
| 制程 | 12nm (中芯国际全国产) |
| HBM | 144 GB HBM3e, >3.35 TB/s |
| 精度 | FP8-FP64全精度 |
| 互联 | MetaXLink, 16-64卡超节点 |
| 架构 | XCORE 1.5 |
实际部署: Shanghai Cube 128卡液冷集群运行DeepSeek 671B满血版推理。Qwen3-4B支持256K超长上下文。阶跃星辰Step 3.5 Flash Day 0适配。
云支持: 腾讯云TencentOS Server 4原生支持, OpenCloudOS 8/9原生支持。适配浪潮、联想等9家OEM。
软件栈: MXMACA SDK, PyTorch/TensorFlow, vLLM部署文档。
来源: 沐曦C600, Shanghai Cube集群, 腾讯云沐曦支持
海光信息
深算DCU系列主打ROCm兼容——这是国产芯中最接近CUDA生态迁移的路径。
深算三号 (DCU 8300, 2025量产)
| 参数 | 值 |
|---|---|
| FP32 | >24 TFLOPS |
| HBM | 64 GB HBM3 |
| 制程 | 7nm+ |
| CUDA兼容 | 算子兼容>99% |
| 客户 | 字节/腾讯/阿里已批量供货 |
深算四号 (2026量产)
| 参数 | 值 |
|---|---|
| FP32 | ~150 TFLOPS |
| 制程 | 7nm+/Chiplet |
| 互联 | CXL + 2.5D封装 |
实际使用: 海光技术团队已成功完成DeepSeek V3/R1适配并正式上线,在科教、金融、医疗等规模化应用。据报道DeepSeek V4训练确实选用了海光DCU+寒武纪MLU,核心算子重构200+个。
迁移周期: 模型迁移仅15-20天 (昇腾需45-60天)。
软件栈: DTK (DCU Toolkit) 兼容ROCm生态。vLLM在DCU上可用但量化版适配困难。HSI高速互联 (400 GB/s)。
来源: 海光DeepSeek适配, DS V4训练芯片
天数智芯
累计交付5.2万片通用GPU, 服务290+客户, 900+次部署。2024年营收5.395亿元。
天垓150 (当前)
| 参数 | 值 |
|---|---|
| FP16 Dense | ~192 TFLOPS |
| HBM | 64 GB HBM2e |
| TPP性能密度 | 3,040 |
天垓200 (2026)
面向大模型训练,细节待公布。路线图目标对标H200→B200 (算力需提升5-12倍)。
实际使用: 与无问芯穹合作在智铠百卡推理集群部署Infini-AI异构云平台。与Gitee AI合作一天内完成DeepSeek R1适配。中国电子云联合方案:芯片成本降15%, 推理并发增10倍+, 分布式训练加速近2倍。已支持36个大模型。
砺算
国内首家全自研GPU (指令集→计算核心完全自主), 主攻图形渲染+“渲推一体”。
7G100 (6nm TrueGPU天图架构, 2026年6月发售)
| 参数 | 值 |
|---|---|
| 制程 | 6nm |
| FP32 Dense | ~24 TFLOPS |
| 显存 | 12 GB GDDR6 |
| PCIe | Gen4 x16 |
| TBP | 225W |
| 价格 | ¥3,299 (国补后~¥2,969) |
| 游戏性能 | 3DMark FireStrike 26,800; 黑神话1080P高>70 FPS |
| AI推理 | 本地部署Qwen3 32B、DeepSeek 14B、SD3 |
全球第四家通过微软WHQL认证的GPU厂商。支持NRSS超分 (对标DLSS/FSR)。专业版LX Ultra 24GB GDDR6+ECC。
生态: 适配海光/鲲鹏/飞腾/兆芯/龙芯CPU, Windows/麒麟/UOS/Ubuntu OS。AutoCAD/Solidworks/Blender等50+款专业软件。
综合对比总表
国际旗舰芯片矩阵算力对比 (Dense, 单芯片)
| 芯片 | FP64 Mat | FP32 Mat | FP16/BF16 | FP8 | FP4/NVFP4 | HBM | HBM BW | GPU间BW | PCIe |
|---|---|---|---|---|---|---|---|---|---|
| NVIDIA H100 SXM | 67T | — | 989T | 1,979T | — | 80GB H3 | 3.35T | 900G (NV4) | G5 |
| NVIDIA H200 SXM | 67T | — | 989T | 1,979T | — | 141GB H3e | 4.8T | 900G (NV4) | G5 |
| NVIDIA B200 | ~40T | — | 2,250T | 4,500T | 9,000T (NVFP4) | 192GB H3e | 8T | 1.8T (NV5) | G5 |
| NVIDIA B300 | ~40T | — | ~3,375T? | 5,000T | 15,000T (NVFP4) | 288GB H3e | 8T | 1.8T (NV5) | G5 |
| NVIDIA Rubin | — | — | — | ~14,000T | 50,000T (NVFP4) | 288GB H4 | 22T | 3.6T (NV6) | — |
| AMD MI300X | 163.4T | 163.4T | 1,307.4T | 2,614.9T | — | 192GB H3 | 5.3T | ~896G (IF) | G5 |
| AMD MI355X | 78.6T | 157.3T | 2,500T | 5,000T | 10,100T (MXFP4) | 288GB H3e | 8T | 1,075G (IF) | G5 |
| AMD MI400 | — | — | 10,000T | 20,000T | 40,000T | 432GB H4 | 19.6T | 300G (UAL) | — |
| Google TPU v7 | — | — | — | 4,614T | — | 192GB H3e | 7.4T | 1.2T (ICI) | — |
| Amazon Trn3 | — | — | — | 2,520T | MXFP4 | 144GB H3e | 4.9T | NeuroSwitch | — |
| MS Maia 200 | — | — | — | 5,072T | 10,145T | 216GB H3e | 7T | 2.8T (Eth) | — |
| Intel Gaudi 3 | — | — | 1,835T† | 1,835T | — | 128GB H2e | 3.7T | 1.2T (Eth) | G5 |
| Groq LPU v3 | — | — | — | 1,200T | — | 0.5GB SRAM | 150T (SRAM) | 2.5T | G5 |
| Cerebras WSE-3 | — | — | 125,000T | — | — | 44GB SRAM | 21,000T (SRAM) | 214,000T (Fabric) | — |
| SambaNova SN50 | — | — | — | 3,200T | — | 64GB H2e | 1.8T | 2.2T | — |
| Tenstorrent BH | — | — | — | 664T (BlkFP8) | — | 32GB G6 | 0.5T | 3.2T (Eth) | G5 |
注:T=TFLOPS(PFLOPS已折算), H3=HBM3, H3e=HBM3e, H4=HBM4, H2e=HBM2e, G6=GDDR6, NV=NVLink, IF=Infinity Fabric, Eth=以太网, UAL=UALink, G5=PCIe Gen5。†Gaudi 3 BF16为8个MME矩阵引擎, 非TPC向量。Cerebras WSE-3的125 PFLOPS为系统级(900,000核)FP16。
国产芯片矩阵算力对比 (Dense, 单芯片)
| 芯片 | FP16/BF16 | FP8 | FP4 | HBM/显存 | 显存BW | 卡间互联 | 制程 | PCIe |
|---|---|---|---|---|---|---|---|---|
| 昇腾950PR | — | ~1,000T | 1,560T | 112GB(自研) | 1.4T | HCCS | 7nm | — |
| 思元690 | >700T | — | — | 196GB H3 | — | >890G | 5nm | — |
| 真武M890 | — | — | — | 144GB | — | 800G (ICN) | — | — |
| 昆仑芯M300 | 62.8T | — | — | H3E, 1.2T | — | — | 7nm | — |
| MTT S5000 | BF16/FP16 | 1,000T | — | 80GB | 1.6T | 784G | — | — |
| 壁砺166M | ~800T | ✓ | — | 64GB, 1.6T | — | — | 7nm | — |
| 曦云C600 | — | ✓ | — | 144GB H3e | >3.35T | MetaXLink | 12nm | — |
| 深算四号 | — | — | — | Chiplet | — | HSI 400G | 7nm+ | — |
| 天垓150 | ~192T | — | — | 64GB H2e | — | — | — | — |
| 砺算7G100 | — | — | — | 12GB G6 | — | — | 6nm | G4 |
超节点与集群方案对比
| 厂商 | 超节点方案 | 芯片数 | 总算力 (峰值) | 总HBM | 互联技术 | 状态 |
|---|---|---|---|---|---|---|
| NVIDIA | GB200 NVL72 | 72 B200 | 1.44 EF FP4 | 13.5 TB | NVLink5+NVSwitch (130 TB/s) | H2 2024 |
| NVIDIA | DGX SuperPOD B200 | 576 B200 | 11.5 EF FP4 | 108 TB | NVLink5 域 (>1 PB/s) | 2025 |
| NVIDIA | Rubin NVL72 | 72 Rubin | 3.6 EF FP4 | 20.7 TB | NVLink6 (259 TB/s est) | H2 2026 |
| AMD | 8×MI355X UBB | 8 MI355X | 80.5 PF FP4 | 2.3 TB | IF4全网状 (~1 TB/s) | H2 2025 |
| AMD | Helios (MI400) | 72 MI455X | 2.9 EF FP4 | 31 TB | UALink (43 TB/s scale-out) | H2 2026 |
| TPU v7 SuperPod | 9,216 Ironwood | 42.5 EF FP8 | ~1.77 PB | ICI硅光子 (9.6 Tb/s) | 2025 | |
| Amazon | Trn3 UltraServer | 144 Trn3 | 362 PF FP8 | 20.7 TB | NeuronSwitch-v1 | 2025 |
| MS | Maia 200 Scale-Up | 6,144 Maia 200 | ~31 EF FP4 | 1,327 TB | 标准以太网 | 2026 |
| Cerebras | CS-3 Cluster | 2,048 CS-3 | 256 EF FP16 | — | 晶圆上Fabric | 2024+ |
| Groq | LPX Rack | 256 Groq 3 | 315 PF FP8 | 128 GB SRAM | Dragonfly (640 TB/s) | H2 2026 |
| 华为 | Atlas 950超节点 | 8,192 昇腾 | 8 EF FP8 | 1,152 TB | HCCS | 2026 |
| 华为 | CloudMatrix 384 | 384 910C | — | — | HCCS | 2025 |
| 阿里 | 磐久AL128 | 128 M890 | — | 18.4 TB | ICN Switch (<150ns P2P) | 2026 |
| 昆仑芯 | 天池512 | 512 M300 | — | — | 天池互联 | 2026 H2 |
| 摩尔线程 | 夸娥万卡 | >10,000 S5000 | 10 EF | — | MUSA互联 | 2024-25 |
| 壁仞 | 光跃128卡 | 128 壁砺166L | — | — | 硅光OCS交换 | 2026 |
| 海光 | 天池256/512 | 256 DCU | — | — | HSI | 2026 |
软件生态对比
| 厂商 | PyTorch | vLLM | SGLang | Triton/TileLang | Megatron/FSDP | DeepSpeed | 自研框架 |
|---|---|---|---|---|---|---|---|
| NVIDIA | 最成熟 | 官方 | 官方 | Triton原生 | Megatron-LM原生 | 全支持 | CUDA/cuDNN/TensorRT |
| AMD | ROCm成熟 | Moreh优化 | 官方Docker | 支持 | FSDP(较好) | 每两周更 | ROCm/HIP |
| Google TPU | XLA后端 | XLA适配 | — | — | — | — | JAX(主力) |
| Amazon Trn | Neuron SDK | 支持 | — | 支持 | FSDP | — | Neuron Kernel |
| MS Maia | 支持 | — | — | 支持 | — | — | NPL语言 |
| 华为 | torch-npu | 官方vllm-ascend | 原生支持 | TileLang | 适配中 | 支持 | CANN/MindSpore |
| 寒武纪 | torch_mlu | 社区适配 | — | — | FlagScale | — | Neuware |
| 阿里 | 深度适配(内) | — | — | — | — | — | 自研 |
| 昆仑芯 | PaddlePaddle原生 | vLLM-Kunlun | — | — | — | — | XPU SDK |
| 摩尔线程 | Torch-MUSA(1,050算子) | vLLM-MUSA | 主线合入! | Triton+TileLang | 支持 | 支持 | MUSA |
| 壁仞 | br_pytorch | vLLM | SGLang | — | — | — | BIRENSUPA |
| 沐曦 | 支持 | vLLM | — | — | — | — | MXMACA |
| 海光 | DTK(PyTorch) | 有限 | — | — | — | — | DTK(ROCm兼容) |
| 天数智芯 | 多框架适配 | — | — | — | — | — | 自研 |
| 砺算 | 推理级 | — | — | — | — | — | TrueGPU SDK |
实际部署验证
下表汇总各芯片是否有公开可验证的训练或推理大规模部署证据:
| 芯片 | 训练证据 | 推理证据 | 代表模型/客户 | 部署规模 |
|---|---|---|---|---|
| NVIDIA H100 | ✅✅✅ | ✅✅✅ | GPT-4, Llama 3, Grok, DS V3 | 全球百万级 |
| NVIDIA B200 | 🔶 初期 | ✅ | GB200 NVL72 (CoreWeave/Azure) | 万级+ |
| AMD MI300X | 🔶 有限 | ✅✅✅ | Llama 405B (Meta), GPT-4 (Azure) | 十万级 |
| AMD MI355X | 🔶 MLPerf验证 | ✅✅ | DeepSeek-R1, Llama 3.1 (MLPerf) | 样品/早期 |
| Google TPU v7 | ✅✅ | ✅✅✅ | Gemini, Claude | 数十万片 |
| Amazon Trn3 | ✅✅ | ✅✅✅ | Claude (Anthropic), Bedrock | 百万级 |
| MS Maia 200 | ❓ | ✅✅ | GPT-5.2, Copilot | Azure部署 |
| Intel Gaudi 3 | 🔶 | 🔶 | IBM Cloud | 小规模 |
| Groq LPU | ❌ (不训) | ✅✅✅ | Llama, Kimi, GPT-OSS (GroqCloud) | ~19,000片 |
| Cerebras WSE-3 | ✅✅ | ✅✅✅ | Codex Spark (OpenAI), Llama | 大型集群 |
| 华为昇腾 | ✅✅✅ (910B/910C) | ✅✅✅ (950PR) | DS V4脱离CUDA, Pangu, Qwen | 81.2万片 |
| 寒武纪 | 🔶 (腾讯测试) | ✅✅✅ | 字节推荐+AIGC (2万+卡), TikTok | 万级+ |
| 阿里真武 | ❓ | ✅✅✅ | Qwen3.7-Max, 400+客户 | 60万片出货 |
| 昆仑芯 | ✅✅✅ | ✅✅✅ | ERNIE 5.1万卡训练 | 万卡集群 |
| 摩尔线程 | ✅ (DS V3训) | ✅✅✅ | DS 671B推理, QuEra集群 | 万卡集群 |
| 壁仞 | ❓ | ✅✅✅ | Kimi K2.6, GLM-5.1, 混元Hy3 | 数千卡 |
| 沐曦 | ❓ | ✅✅ | DS 671B (Shanghai Cube), Qwen3 | 百-千卡级 |
| 海光 | ✅✅ | ✅✅ | DS V3/R1/V4训练+推理 | 智算中心级 |
| 天数智芯 | ✅ (异构) | ✅✅ | DS R1, 290+客户 | 5.2万片交付 |
| 砺算 | ❌ (非此定位) | 🔶 (端侧) | Qwen3 32B本地, SD3 | 消费级 |
图例:✅✅✅ 大规模生产级, ✅✅ 确认部署, ✅ 公开验证, 🔶 有限/初期, ❓ 无公开证据, ❌ 不适用
结论与展望
核心趋势
-
FP4成为2025-2026推理的主力精度。NVIDIA的NVFP4、AMD的MXFP4、Intel的BlockFP4、Microsoft的原生FP4——所有主流厂商都走向了4-bit推理。训练仍以FP8/BF16为主。
-
机架级系统取代单卡竞争。NVL72、Helios、SuperPod、UltraServer——竞争的粒度从”每颗GPU”变为”每机架/每集群”。NVIDIA的NVSwitch/NVLink构成了当前最坚固的护城河。
-
推理取代训练成为首要设计目标。Google Ironwood是”首款推理时代TPU”,Groq LPU、SambaNova RDU、Cerebras CS-3均以推理为核心。预计2030年推理消耗75%的AI算力。
-
国产芯片已突破”能用”门槛。DeepSeek V4脱离CUDA在昇腾950PR上运行是最具标志性的事件。但要达到”好用”(软件生态、稳定性、性能优化),国产厂商仍需2-3年追赶。
各梯队定位
第一梯队 (全面领先): NVIDIA — 从芯片架构到NVLink/NVSwitch系统级整合到CUDA软件生态,尚无短板。
第二梯队 (有竞争力但不全面): AMD (推理性价比接近, 训练/软件滞后), Google TPU (推理第一, 但不外售), Amazon Trainium (成本优势, 芯片性能非最强)。
第三梯队 (特定场景有优势): Cerebras (超大模型训练), Groq (超低延迟推理), SambaNova (Agent推理), Microsoft Maia (Azure整合)。
国产第一梯队 (已量产验证): 华为昇腾 (生态最完善), 阿里真武 (出货量大), 寒武纪 (字节生态), 昆仑芯 (训练验证最充分), 摩尔线程 (软件生态进展最快)。
国产第二梯队 (追赶中): 海光 (ROCm兼容), 壁仞 (硅光互联), 沐曦 (全国产供应链), 天数智芯 (商业落地务实)。
关键风险
- CUDA锁定:即便硬件性能追平, 开发者生态和库成熟度仍需要时间。
- 制程受限:国产芯片制程普遍落后国际2-3代。
- 互联瓶颈:节点内GPU间通信是国产与NVIDIA差距最大的环节之一。
- 客户集中度:寒武纪96%营收依赖字节跳动, 风险极高。
- Intel/Graphcore教训:软件生态不成熟+部署复杂可直接导致商业失败。
数据截止日期: 2026年5月21日。部分规划产品参数为业界预测值,实际以官方发布为准。
主要信息来源: NVIDIA/AMD/Google/Amazon/Microsoft/Meta官方技术博客和白皮书, MLPerf v5.1/v6.0结果, ISSCC/Hot Chips会议论文, 各公司财报与招股书, 行业研报与技术媒体。