2026年全球AI芯片全景调研

注意： 本文所有数据均来源于各厂商官方发布、技术白皮书、MLPerf等独立基准测试及行业研报，截止日期为2026年5月。文中所述性能均指理论峰值，实际吞吐量受模型架构、软件栈优化、集群规模等多因素影响。除非特别标注，算力数据均为稠密（Dense）性能。

目录#

引言
国际厂商
国产厂商
综合对比总表
超节点与集群方案对比
软件生态对比
实际部署验证
结论与展望

引言#

2025-2026年是AI芯片产业剧烈变革的两年。NVIDIA凭借Blackwell Ultra和Vera Rubin继续领跑，但AMD的CDNA 4/MI355X在推理性价比上首次实质性逼近；Google TPU v7 Ironwood以42.5 EFLOPS的超大规模集群彰显自研芯片的威力；国产阵营中华为昇腾950PR承载了DeepSeek V4脱离CUDA的历史性突破，阿里真武M890、寒武纪思元690、摩尔线程MTT S5000等纷纷进入大规模商用阶段。

本文试图从矩阵算力（各精度Dense/Sparse）、向量算力、HBM带宽与容量、节点内通信带宽、PCIe接口、硬件架构/编程模型、实际部署可用性七个维度，对20+家厂商的40+款芯片进行系统性调研。

国际厂商#

NVIDIA#

NVIDIA当前产品线覆盖Hopper（H100/H200）、Blackwell（B200/GB200）、Blackwell Ultra（B300/GB300）和2026年下半年的Vera Rubin四代架构。

Hopper架构：H100 / H200#

GH100芯片基于台积电4N定制工艺，800亿晶体管，814 mm² die面积。

参数	H100 SXM (700W)	H100 PCIe (350W)	H200 SXM (700W)
SM数量	132 / 144(完整)	114	132
CUDA Core (FP32)	16,896	14,592	16,896
Tensor Core (第4代)	528	456	528
Transformer Engine	第1代 (FP8)	同	同
FP64 Vector	34 TFLOPS	26 TFLOPS	34 TFLOPS
FP32 Vector	67 TFLOPS	51 TFLOPS	67 TFLOPS
FP64 Tensor Dense	67 TFLOPS	51 TFLOPS	67 TFLOPS
TF32 Tensor Dense	494 TFLOPS	378 TFLOPS	494 TFLOPS
TF32 Tensor Sparse (2:4)	989 TFLOPS	756 TFLOPS	989 TFLOPS
FP16/BF16 Tensor Dense	989 TFLOPS	756 TFLOPS	989 TFLOPS
FP16/BF16 Tensor Sparse	1,979 TFLOPS	1,513 TFLOPS	1,979 TFLOPS
FP8 Tensor Dense	1,979 TFLOPS	1,513 TFLOPS	1,979 TFLOPS
FP8 Tensor Sparse	3,958 TFLOPS	3,026 TFLOPS	3,958 TFLOPS
INT8 Tensor Dense	1,979 TOPS	1,513 TOPS	1,979 TOPS
INT8 Tensor Sparse	3,958 TOPS	3,026 TOPS	3,958 TOPS
HBM容量	80 GB HBM3	80 GB HBM3	141 GB HBM3e
HBM带宽	3.35 TB/s	2.0 TB/s	4.8 TB/s
NVLink	第4代, 900 GB/s (18链路)	600 GB/s (仅NVL桥接)	900 GB/s
PCIe	Gen5 x16 (128 GB/s)	Gen5 x16 (128 GB/s)	Gen5 x16 (128 GB/s)
DGX配置	8×H100, 640 GB HBM3	—	8×H200, 1,128 GB HBM3e

Hopper架构的关键创新包括第4代Tensor Core、TMA（Tensor Memory Accelerator）异步数据传输、WGMMA（warp-group级别矩阵乘法）指令及FP8 Transformer Engine的动态精度缩放。第4代NVSwitch（3.2 TB/s双向芯片带宽）支持单NVLink域内最多256颗GPU的全互联。

来源： NVIDIA Hopper Architecture Whitepaper, NVIDIA H100 Product Page, NVIDIA H200 Product Page, NVSwitch Technical Blog

Blackwell架构：B200 / GB200#

Blackwell采用双reticle设计（两个104B晶体管的die通过NV-HBI 10 TB/s桥接为统一GPU），基于台积电4NP增强工艺，总计2080亿晶体管。

参数	B200 (1000W)	GB200 Superchip (2×B200 + Grace)
SM数量	~148	2×~148
CUDA Core (FP32)	~18,944	2×~18,944
Tensor Core (第5代)	592	2×592
Transformer Engine	第2代 (FP4/FP6/FP8)	同
FP64 Vector	~40 TFLOPS	~80 TFLOPS
FP32 Vector	~80 TFLOPS	~160 TFLOPS
FP64 Tensor Dense	~40 TFLOPS	~80 TFLOPS
TF32 Tensor Dense	1,125 TFLOPS	2,250 TFLOPS
FP16/BF16 Tensor Dense	2,250 TFLOPS	5,000 TFLOPS
FP16/BF16 Tensor Sparse (2:4)	4,500 TFLOPS	10,000 TFLOPS
FP8 Tensor Dense	4,500 TFLOPS	10,000 TFLOPS
FP8 Tensor Sparse	9,000 TFLOPS	20,000 TFLOPS
NVFP4 Tensor Dense	9,000 TFLOPS	20,000 TFLOPS
NVFP4 Tensor Sparse	18,000 TFLOPS	40,000 TFLOPS
INT8 Tensor Dense	4,500 TOPS	10,000 TOPS
HBM容量	192 GB HBM3e	384 GB HBM3e
HBM带宽	8 TB/s	16 TB/s (合并)
NVLink	第5代, 1.8 TB/s	同
NVLink-C2C (CPU-GPU)	—	900 GB/s
PCIe	Gen5 x16 (128 GB/s)	—

Blackwell Ultra (B300/GB300, 2025年下半年)：

参数	B300	GB300 NVL72
NVFP4 Dense	15 PFLOPS (B200的1.5倍)	—
FP8 Dense	5 PFLOPS	—
HBM容量	288 GB HBM3e	20.7 TB (72×288 GB)
HBM带宽	8 TB/s	576 TB/s聚合
NVLink	第5代, 1.8 TB/s	130 TB/s (18颗NVSwitch)
SFU (Attention)	10.7 TeraExponentials/s (B200的2倍)	—
TDP	1,400W	液冷
机架算力	—	1.1 EFLOPS FP4

GB200 NVL72 超节点： 72颗B200 GPU + 36颗Grace CPU，总计13.5 TB HBM3e、576 TB/s总显存带宽。18颗NVSwitch（9 tray）提供130 TB/s无阻塞all-to-all全互联，72颗GPU作为统一加速器呈现。单机架FP4推理算力达1.44 EFLOPS，功耗~120 kW，液冷。

DGX SuperPOD (B200): 8×GB200 NVL72 = 576颗GPU，>1 PB/s NVLink域，11.5 EFLOPS FP4。

Blackwell关键架构创新：

第5代Tensor Core：原生支持NVFP4（E2M1+微张量共享指数）、MXFP4（OCP标准f4E2M1FN）、MXFP6（f6E2M3FN/f6E3M2FN）、FP6（E3M2/E2M3）
微张量缩放（Micro-Tensor Scaling）：每32元素块共享E8M0缩放因子，实现低精度下的高动态范围
TMEM（Tensor Memory）：每SM专用片上张量内存，与共享内存分离
NV-HBI：10 TB/s片间互联将两个die统一为单颗CUDA GPU
解压缩引擎：800 GB/s吞吐量

来源： NVIDIA Blackwell Technical Blog, NVIDIA GB200 NVL72, Blackwell Microbenchmarking (arXiv:2512.02189), NVIDIA Blackwell Ultra Blog

Vera Rubin架构 (2026年下半年)#

CES 2026发布的下一代平台，台积电3nm工艺，GPU部分3360亿晶体管。

参数	Vera Rubin GPU
NVFP4 Dense (推理)	50 PFLOPS (Blackwell的5倍)
NVFP4 Dense (训练)	35 PFLOPS (Blackwell的3.5倍)
FP8/FP6 训练	~14+ PFLOPS
HBM容量	288 GB HBM4
HBM带宽	22 TB/s (Blackwell的2.8倍)
NVLink	第6代, 3.6 TB/s per GPU
NVLink-C2C	1.8 TB/s (到Vera CPU)
Vera CPU	88×Olympus ARM核心 (Armv9.2), 176线程, 1.5 TB LPDDR5X
机架系统	Vera Rubin NVL72: 3.6 EFLOPS FP4推理, 2.5 EF训练
能效	每token成本为Blackwell的1/10

来源： NVIDIA Vera Rubin at CES 2026, NVIDIA DGX Rubin NVL8

实际使用情况#

NVIDIA GPU是全球AI训练和推理的事实标准：

GPT-4：~25,000颗A100训练
Llama 3 405B (Meta)：16,384颗H100训练，54天
DeepSeek V3/R1：~2,048颗H800训练，成本约$5.58M
Grok (xAI)：~100,000颗H100 Colossus集群
GB200 NVL72已在CoreWeave、Azure部署

软件栈#

组件	用途
CUDA	通用并行计算平台，Compute Capability 9.0(Hopper)/10.0(Blackwell)
cuDNN / cuBLAS	深度神经网络/线性代数库
NCCL	多GPU集合通信库
TensorRT-LLM	最高单GPU推理吞吐
Megatron-LM / NeMo	大规模分布式训练 (5D并行)
vLLM	开源LLM推理引擎 (PagedAttention)
SGLang	多轮对话/Agent推理优化 (RadixAttention)
DeepSpeed	ZeRO优化分布式训练/推理
verl	RLHF/PPO训练管线
Triton	高性能内核编写编译器

AMD#

AMD Instinct产品线：MI300X (CDNA 3, 2024) → MI355X (CDNA 4, 2025下半年) → MI400 (CDNA Next, 2026)。

MI300X (CDNA 3, 当前主力)#

台积电5nm (XCD) + 6nm (IOD), ~1,530亿晶体管, 304个CU, 19,456个流处理器。

精度	Dense	Sparse (2:4)
FP64 Matrix	163.4 TFLOPS	—
FP32 Matrix	163.4 TFLOPS	—
FP64 Vector	81.7 TFLOPS	—
FP32 Vector	81.7 TFLOPS	—
TF32	653.7 TFLOPS	1,307.4 TFLOPS
FP16/BF16	1,307.4 TFLOPS	2,614.9 TFLOPS
FP8	2,614.9 TFLOPS	5,229.8 TFLOPS
INT8	2,614.9 TOPS	5,229.8 TOPS

参数	值
HBM	192 GB HBM3, 5.3 TB/s
Infinity Cache	256 MB
GPU间互连	第4代Infinity Fabric, 7链路全网状, 每链路128 GB/s
总GPU间带宽	~896 GB/s (每GPU)
PCIe	Gen5 x16 (128 GB/s)
TBP	750W
8-GPU平台	1.5 TB HBM3, 42.4 TB/s聚合带宽

MI300X的FP64向量性能（81.7 TFLOPS）为H100（34 TFLOPS）的2.4倍，在HPC工作负载中具备显著优势。但GPU间带宽（128 GB/s/链路）仅为NVLink 4（900 GB/s总）的约七分之一，多GPU扩展受限。

MI355X (CDNA 4, 2025下半年)#

台积电N3P (XCD) + N6 (IOD), ~1,850亿晶体管, 256个CU (有意减少), 16,384个流处理器。

精度	Dense	Sparse
FP64 Matrix	78.6 TFLOPS	—
FP32 Matrix	157.3 TFLOPS	—
FP64 Vector	78.6 TFLOPS	—
FP32 Vector	157.3 TFLOPS	—
FP16/BF16	2.5 PFLOPS	5.0 PFLOPS
FP8 (OCP E4M3/E5M2)	5.0 PFLOPS	10.1 PFLOPS
MXFP6	10.1 PFLOPS	—
MXFP4	10.1 PFLOPS	—
INT8	5.0 POPS	10.1 POPS

参数	MI350X (风冷)	MI355X (液冷)
HBM	288 GB HBM3e	288 GB HBM3e
HBM带宽	8.0 TB/s	8.0 TB/s
Infinity Fabric	第4代增强, 7链路	同
每链路带宽	153.6 GB/s	153.6 GB/s
总GPU间带宽	~1,075 GB/s	~1,075 GB/s
PCIe	Gen5 x16 (128 GB/s)	同
TBP	1,000W	1,400W

CDNA 4关键创新： 每CU矩阵吞吐量翻倍（FP8从4096增至8192 FLOPS/周期），LDS扩大至160 KB/CU（2.5倍），原生MXFP4/MXFP6支持，I/O die从4个合并为2个。CU数从304减至256是为了2次幂分块优化。

MLPerf Inference v5.1（FP4提交）：

Llama 2 70B离线 (8×MI355X)：93,045 tokens/s，比B200快41%，比H200快196%
Llama 3.1 405B离线 (8-GPU)：2,109 tokens/s，比GB200快27%

独立基准（Signal65/SemiAnalysis，2025）： 芯片级MI355X在DeepSeek-R1上比B200快1.2倍。但多GPU扩展受限于Infinity Fabric，GB200 NVL72的NVLink域在DeepSeek-R1上领先最高28倍。

来源： AMD MI355X Product Page, AMD MLPerf Inference v5.1, AMD MLPerf Training v5.1, CDNA 4 ISA Details

MI400系列 (CDNA Next/UDNA, 2026下半年)#

台积电N2 (2nm) 计算芯片 + N3P I/O/中介层, ~3,200亿晶体管 (MI455X), CoWoS-L封装。

参数	MI455X (旗舰)	MI430X (HPC)
FP4 Dense	40 PFLOPS	—
FP8 Dense	20 PFLOPS	—
FP16/BF16 Dense	10 PFLOPS	—
FP64	部分支持	完整原生FP64
HBM	432 GB HBM4	待定
HBM带宽	19.6 TB/s	待定
TDP	1,500-1,800W (液冷)	待定
GPU间互连	UALink (每GPU 300 GB/s)	同

Helios 机架系统： 72×MI455X + 18×Zen 6 EPYC “Venice” (2nm, 256核/颗), 31 TB HBM4总容量, 1.4 PB/s聚合带宽, 2.9 EFLOPS FP4推理, UALink开放标准互连。

来源： AMD MI400 CES 2026, MI400 Specs

实际部署#

Meta：MI300X用于Llama 405B专属推理
Microsoft Azure：ND MI300X v5 VM系列，用于GPT-4推理
OpenAI：多年协议，2026下半年起部署1 GW MI450
Oracle Cloud：部署MI300X用于训练和推理，宣布MI355X实例
xAI、Character.AI、Cohere、IBM：大规模采用
AMD声称全球前10大AI公司中7家在用Instinct GPU

软件栈：ROCm 7#

ROCm完全开源。ROCm 7.0 (2025 Q3) 提供原生FP4/FP6/FP8支持，推理性能较ROCm 6提升3.5倍。PyTorch已是最成熟的框架，通过HIP可编译90%+的CUDA内核。vLLM和SGLang有官方ROCm镜像，DeepSpeed、JAX、Triton均已支持。Megatron-LM兼容性持续改善。

剩余差距： 开发者习惯（CUDA锁定）、库成熟度（cuDNN/TensorRT无精确替代品）、安装复杂度、企业信任度。

来源： AMD ROCm 7, ROCm vs CUDA Analysis

Google TPU#

Google TPU已发展到第七代，从v1 (92 TOPS) 到v7 (4,614 TFLOPS FP8)，性能提升3,600倍+。

TPU v6 “Trillium” (2024, 当前量产)#

参数	值
BF16 Dense (单芯片)	918 TFLOPS
INT8 Dense (单芯片)	1,836 TOPS
FP8 Dense (估算)	~1.8 PFLOPS (2× BF16)
MXU尺寸	256×256 脉动阵列 (v5e的4倍)
HBM	32 GB, ~1.64 TB/s (v5e的2倍)
ICI (芯片间互连)	双向3.2 Tb/s (聚合), 4端口/芯片
TDP	~150W (能效比v5e提升67%)
Pod	256芯片 (2D环面拓扑), BF16 234.9 PFLOPS
代际提升	相对v5e: 4.7倍性能
主要客户	Anthropic签约数十万片 (2027年扩至100万片)

关于稀疏性： TPU的MXU仅处理稠密矩阵乘法，无2:4结构化稀疏支持。SparseCore（第3代） 是专用数据流加速器，用于推荐系统的嵌入查找（随机/细粒度内存访问），而非稀疏矩阵乘法。SparseCore与MXU协同工作：嵌入在SparseCore上，稠密变换在MXU上。

TPU v7 “Ironwood” (2025年4月发布, 2025年11月GA)#

参数	值
FP8 Dense (单芯片)	4,614 TFLOPS (~4.6 PFLOPS)
HBM容量	192 GB HBM3E (v6的6倍)
HBM带宽	7.2-7.4 TB/s (v6的4.5倍)
ICI	双向1.2 Tb/s (v6的1.5倍), 聚合9.6 Tb/s
TDP	~980-1,000W
制程/封装	3D堆叠混合键合 (逻辑与内存层10μm间距)
每瓦性能	v6e的2倍

架构亮点：

FlexCore 计算核心：4,096 MAC单元/核心, 支持FP32/FP16/BF16/FP8混合精度, 64 MB L3/核心 (向量引擎), MXU为512×512有效阵列 (FP8模式)
第4代SparseCore：不仅处理嵌入查找，还能卸载集合通信操作（All-Gather、Reduce-Scatter），实现计算与通信接近完美重叠（减少15-22%训练步时间）
硅光子互联 (OCS)：片上直接集成激光器和调制器, 波分复用, 单链路1.6 TB/s, 延迟从~~20μs降至~~5μs（↓75%）。光电路交换动态路由芯片间通信，是9,216芯片SuperPod的关键使能技术
双设备编程模型：从MegaCore单核→双TPU设备直接访问

SuperPod (9,216芯片)：42.5 EFLOPS FP8, 总HBM ~1.77 PB。对比Frontier超算（1.7 EF）达24倍以上。

实际使用：

Gemini系列模型训练和推理
Anthropic Claude部分工作负载已运行在Ironwood
Midjourney迁移至TPU v6e后推理成本降低65%

软件栈： JAX（主力）、TensorFlow、PyTorch/XLA。vLLM通过XLA后端支持。Google Cloud提供TPU实例。TPU单位美元性能为GPU的1.4倍。

来源： Google Ironwood Announcement, Google TPU vs NVIDIA Framework, Ironwood Deep Dive

Amazon AWS Trainium#

Trainium 2 (2024年12月GA)#

精度	Dense	Sparse (2:4结构化)
FP8 (cFP8)	1,299 TFLOPS	2,563 TFLOPS
BF16 / FP16 / TF32	667 TFLOPS	2,563 TFLOPS
FP32	181 TFLOPS	—

参数	值
架构	8×NeuronCore-v3/芯片
HBM	96 GB HBM3, 2.9 TB/s
DMA带宽	3.5 TB/s (带在线压缩/解压缩)
互联	NeuronLink-v3, 1.28 TB/s/芯片 (3D环面)
集合通信	16个CC-Core/芯片
制程	台积电5nm
Trn2 UltraServer (64芯片)	83.2 PFLOPS FP8, 6 TB HBM3, 185 TB/s聚合带宽

Project Rainier：~50万颗Trainium2，全球最大非NVIDIA AI集群，为Anthropic Claude训练提供算力。截至2026年初总部署约140万颗。

Trainium 3 (2025年12月GA)#

精度	Dense	Sparse (多模式: 4:16/4:12/4:8/2:8/2:4/1:4/1:2)
MXFP8 / MXFP4	2,517 TFLOPS (共享峰值, MXFP4计算前转为MXFP8)	—
FP8	2,517 TFLOPS	—
BF16 / FP16 / TF32	671 TFLOPS	2,517 TFLOPS
FP32	183 TFLOPS	—

参数	值
制程	台积电3nm (AWS首款3nm芯片)
架构	8×NeuronCore-v4/芯片
HBM容量	144 GB HBM3e (Trn2的1.5倍)
HBM带宽	4.9 TB/s (Trn2的1.7倍)
SBUF (暂存缓冲)	256 MiB/芯片
互联	NeuronLink-v4, 2.56 TB/s/芯片 (Trn2的2倍)
拓扑	NeuronSwitch-v1 (全对全拓扑, 取代环面, 针对MoE优化)
UltraServer Gen2 (144芯片)	362 PFLOPS FP8, 20.7 TB HBM3e, 705.6 TB/s聚合带宽
能效	每瓦性能为Trn2的4倍, 每兆瓦token数5倍

实际性能： Anthropic Claude生产工作负载已运行在Trainium3。Decart实时生成视频推理4倍加速，成本为GPU的一半。Amazon Bedrock通过Trainium3提供推理流量。

软件栈： Neuron SDK（含PyTorch、Triton、JAX、vLLM支持），Neuron Kernel Library。

来源： AWS Trainium3 UltraServers, AWS Trainium Ecosystem Guide, Trainium3 vs NVIDIA

Microsoft Maia#

Maia 200 (2026年1月发布, 已部署)#

参数	值
制程	台积电3nm, >1,400亿晶体管
FP4 Dense	10,145 TFLOPS (~10 PFLOPS)
FP8 Dense	5,072 TFLOPS (~5 PFLOPS)
HBM容量	216 GB HBM3e
HBM带宽	~7 TB/s
片上SRAM	272 MB
Scale-Up带宽	2.8 TB/s双向 (每加速器)
互联方式	标准以太网 (非私有协议), 自研Maia AI传输协议
TDP	750W (SoC)
最大集群	6,144加速器
散热	第2代闭环液冷

实际部署：

已部署于Azure US Central (Des Moines) 和 US West 3 (Phoenix)
驱动OpenAI GPT-5.2推理、Microsoft 365 Copilot、内部Superintelligence团队工作负载
微软声称比同集群最新硬件性价比高30%

软件栈： Maia SDK (预览)，含PyTorch集成、Triton编译器、优化内核库、NPL低层编程语言、模拟器和成本计算器。

来源： Microsoft Maia 200 Blog, Maia 200 Specifications

Meta MTIA#

MTIA v2 (2025年部署, 2026年3月公开)#

参数	值
制程	5nm, ~421 mm²
INT8 Dense	354 TOPS
FP16 Dense	177 TFLOPS
频率	1.35 GHz
片上SRAM	256 MB (2.7 TB/s带宽)
每PE本地存储	384 KB (1 TB/s带宽)
外部内存	LPDDR5 (非HBM), 容量为v1的2倍
互联	PCIe Gen5 (芯片间和主机间)
TDP	90W
机架系统	72加速器/机架 (3机箱×12板卡×2加速器)

代际提升 (vs v1)： Dense性能3.5倍, Sparse性能7倍, SRAM容量翻倍/带宽3.5倍。

实际使用： 已部署于Meta数据中心，服务排序推荐、广告模型和GenAI工作负载。Meta表示两年内迭代了四代，目前正推进扩展至LLM和多模态模型。

软件栈： 自研编译器和运行时，PyTorch集成。目前主要面向Meta内部工作负载，不对外商用。

来源： Meta MTIA Roadmap, Meta MTIA v2

Intel Gaudi 3 & Jaguar Shores#

Gaudi 3 (2024 Q4 GA, 当前产品)#

台积电5nm, 64个第5代TPC, 8个MME (256×256 MAC阵列)。

参数	值
FP8 Dense (MME)	1,835 TFLOPS
BF16 Dense (MME)	1,835 TFLOPS
BF16 Vector (TPC)	28.8 TFLOPS
HBM容量	128 GB HBM2e
HBM带宽	3.7 TB/s
片上SRAM	96 MB (19.2 TB/s)
网络	24×200 GbE RDMA (RoCE v2), 1.2 TB/s双向
PCIe	Gen5 x16 (128 GB/s)
TDP	900W (OAM风冷) / 1,200W (液冷) / 600W (PCIe)
最大集群	8,192加速器 (1,024节点)

为什么不成功：

2024年$500M营收目标未达成
2025年出货目标下调30%
SynapseAI软件栈落后CUDA约15年
Falcon Shores于2025年1月取消商业化

Jaguar Shores (2026年, 唯一未来赌注)#

规划参数	值
制程	Intel 18A (RibbonFET GAA + PowerVia背面供电)
封装	测试芯片显示4计算tile + 8 HBM4堆叠
目标	机架级AI数据中心方案
时间线	2026 H1设计定稿, H2量产

Intel已从卖独立加速芯片全面转向机架级系统方案，直接对标NVIDIA NVL72路线。Habana Labs主导Jaguar Shores开发。

来源： Intel Gaudi 3 Launch, Intel Cancels Falcon Shores, Jaguar Shores

Groq LPU#

Groq由前Google TPU设计师Jonathan Ross创立，2025年底被NVIDIA以~$170B收购。LPU采用确定性VLIW数据流架构，完全不使用HBM/DRAM/Cache——所有内存为片上SRAM。

Groq 3 LPU (LP30, 三星SF4X 4nm, 2026下半年)#

参数	值
制程	三星SF4X (4nm), ~980亿晶体管
FP8 Dense	1.2 PFLOPS
INT8	支持, >400K MAC/周期/芯片
片上SRAM	500 MB
SRAM带宽	~150 TB/s
C2C链路	96 lane × 112 Gbps = ~2.5 TB/s双向/芯片
向量宽度	320字节原子单元
PCIe	Gen5
FP4/MX4	LPU v3不支持, 待LP35 (预计2027)

无稀疏计算。 LPU架构不做稀疏——所有计算为稠密。
无HBM、无DRAM、无Cache。 SRAM是唯一内存，编译器显式放置所有数据。
确定性执行： 无动态调度、无乱序执行、无分支预测。P99延迟=P50延迟。最差情况抖动±3μs。芯片利用率可达98%（GPU通常<40%）。

LPX机架系统（256颗Groq 3 LPU）：

参数	值
总SRAM	128 GB
聚合SRAM带宽	40 PB/s
FP8算力	315 PFLOPS
Scale-Up带宽	640 TB/s
拓扑	Dragonfly无交换, 最多10,440颗TSP, 任意两芯片最多5跳

实际推理性能（部分在v1/v2上）：

Llama 3.1 8B: 840 tok/s
GPT-OSS 20B: 1,000 tok/s
Llama 4 Scout: 594 tok/s
Qwen3 32B: 662 tok/s
Whisper V3: 217-228倍实时转录
能耗: ~1-3 Joules/token (H100: 10-30 J)

NVIDIA整合策略： Groq 3 LPU并非替代GPU，而是补充推理decoding。AFD (Attention-FFN Disaggregation)：Rubin GPU处理prefill/attention/KV-cache，LPU处理FFN/MoE decode，万亿参数模型decoding达1,500+ tok/s。

软件栈： MLIR前端 + Haskell (DSL “Haste”) 后端。不支持Triton——Triton的动态内核编译模型与确定性VLIW数据流架构不兼容。编译器预计算完整执行图（含所有芯片间通信），精确到时钟周期。

来源： Inside Groq LPU, Groq 3 LPX at GTC, Groq Chip Deep Dive

Cerebras WSE-3#

整张300 mm晶圆作为一个芯片——不切割、无片间互连。台积电5nm, 4万亿晶体管, 46,225 mm² (21.5×21.5 cm)。

参数	WSE-3	对比 H100 倍数
AI核心	900,000	—
片上SRAM	44 GB (每核48 KB)	—
SRAM带宽	21 PB/s	7,000×
晶圆上Fabric带宽	214 Pb/s	—
FP16 Dense	125 PFLOPS (WSE-3)	—
CS-3系统功耗	~23 kW (15U, 水冷)	—
MemoryX (外部)	高达1.5 PB/系统	—
最大集群	2,048 CS-3 = 256 EFLOPS FP16	—
最大模型	24万亿参数 (无需模型并行)	—

稀疏计算： 硬件原生支持——SLAC（稀疏线性代数核心）自动跳过零值，利用率比GPU高3-4倍。

Weight Streaming架构： 模型权重存储在片外MemoryX中，按需流式传输到片上SRAM。1万亿参数模型的训练与1B参数模型在GPU上一样直接——纯数据并行，无需模型并行/流水线并行。

实际使用：

OpenAI：$200亿+主协议，750 MW推理容量（2026-2028），可扩展至2 GW (2030)。主要用例为Codex Spark自主编程Agent。
AWS：CS-3集成到Amazon Bedrock，Trainium3处理prefill + CS-3处理decode，推理速度达同构GPU方案的15倍。
G42 (阿布扎比)：Condor Galaxy 1/2/3超算，贡献2025年86%营收。
Llama 4 Maverick (400B)：2,500 tok/s/用户——比DGX B200快2倍+。
Llama 3 70B推理：比B200快最高21倍，TCO低32%。

软件栈： CSoft平台，原生PyTorch 2.0支持，Cerebras Model Zoo。GPT-3级别模型只需565行代码（比GPU少97%）。

来源： Cerebras WSE-3 Announcement, Cerebras IPO Analysis, Cerebras Architecture Guide

SambaNova RDU#

SambaNova的RDU（可重构数据流单元）采用空间并行——将计算图映射到硬件上，融合数百个操作到单个内核中。

SN40L (第4代, 台积电5nm, 当前)#

参数	值
晶体管	1,020亿 (双die, CoWoS-S)
BF16 Dense	638 TFLOPS
三级内存：
Tier 1 (片上SRAM)	520 MB 分布式
Tier 2 (封装内HBM3)	64 GB
Tier 3 (外挂DDR5)	高达1.5 TB
最大模型	5万亿参数 (单节点)
最大上下文	256K+ tokens
机架功耗	~10 kW (16 RDU, 风冷)

SN50 (第5代, 2026下半年)#

参数	值
BF16 Dense	1.6 PFLOPS (SN40L的2.5倍)
FP8 Dense	3.2 PFLOPS (SN40L的5倍)
片上SRAM	432 MB/RDU
HBM	64 GB HBM2E @ 1.8 TB/s
DDR5	256 GB-2 TB/RDU
互联	2.2 TB/s双向/RDU, 最多256加速器
最大模型	10万亿+参数
最大上下文	1,000万+ tokens
机架	SambaRack SN50: 16×SN50, ~20 kW, 风冷

Agentic Caching： 输入token缓存在内存中，减少prefill处理和TTFT。模型可毫秒级热切换。

实际部署： SoftBank（首个SN50客户，日本AI数据中心），Intel战略合作（Intel CEO为SambaNova执行主席）。DeepSeek R1 671B和Llama 4 Maverick可在单机架上运行。

来源： SambaNova SN40L RDU, SambaNova SN50 Launch, SambaNova Intel Partnership

Tenstorrent Blackhole#

Jim Keller领导, RISC-V架构, 刻意不使用HBM（使用GDDR6+大SRAM降低成本）。

Blackhole p150 (6nm, 当前出货)#

参数	值
Tensix核心	120 (固件v19.5.0后从140降级)
BlockFP8 Dense	664 TFLOPS
片上SRAM	180 MB
GDDR6	32 GB, 512 GB/s
网络	p150a: 4×QSFP-DD 800G被动
PCIe	Gen5 x16
TBP	300W
价格	$1,299

所有计算为稠密——无稀疏Tensor Core声明。
支持的格式：FP8, FP16, BF16, FP32(输出), FP64(RISC-V), BlockFP2/FP4/FP8, INT8/16/32/64, TF32。

TT-QuietBox 2 (桌面AI工作站, 2026 Q2)：

4×Blackhole处理器, 480个Tensix核心, 2,654 TFLOPS BlockFP8
128 GB GDDR6总 + 256 GB DDR5系统内存
液冷, ~1,400W, $9,999起
Llama 3.1 70B: 476.5 tok/s

全开源软件栈： TT-Metalium (底层SDK), TT-NN (PyTorch风格算子库), TT-Forge (MLIR编译器), TT-XLA (PyTorch/JAX前端)。PyTorch、ONNX、TensorFlow、JAX、PaddlePaddle均支持。

来源： Tenstorrent Blackhole Specs, TT-Metalium, QuietBox 2

Graphcore Bow IPU#

2024年7月被软银以$5-6亿收购。当前旗舰仍是Bow IPU（Colossus MK2），台积电7nm + 3D WoW, ~600亿晶体管, 1,472个IPU-Core tile。

参数	值
片上SRAM	900 MB (每tile 624 KB)
SRAM带宽	65 TB/s
混合精度AI	350 TFLOPS
Bow-2000 (4 IPU, 1U)	1.4 PFLOPS, 5,888核, 35,000+线程, 3.6 GB总片上内存
外挂DDR	高达256 GB Streaming Memory

架构特色： MIMD (每tile独立指令流), 非SIMT。In-Processor-Memory范式——所有权重和激活值可完全驻留在片上。

实际应用领域：

GNN (主要利基)：NeurIPS 2022 OGB-LSC第一名。时序GNN比A100快10倍。
药物发现：LabGenius抗体发现从1月缩短至2周
分子属性预测：Graphium库，>8,600万分子
DNA/蛋白序列比对：X-Drop算法比A100快10倍

状态： 软银收购后尚无新芯片发布，2025年4月注资$4.57亿。

来源： Graphcore Bow IPU, IPU Architecture

国产厂商#

华为昇腾#

华为昇腾是国内生态最完善的AI芯片厂商，已形成910B→910C→950PR/DT三代产品线。2025年累计出货约81.2万片，市占率~20%，国产第一。

昇腾910B / 910C#

参数	910B	910C
FP16 Dense	~256-280 TFLOPS	~640-781 TFLOPS (双Die)
HBM	64 GB HBM2e, ~768 GB/s	128 GB HBM, 3.2 TB/s
制程	7nm	7nm (双Die封装)
互联	HCCS	HCCS增强

910B训练效率达A100的~80%。
910C在DeepSeek推理中达H100的~60%性能。
CloudMatrix 384超节点：384颗910C, DeepSeek-R1推理Prefill 6,688 tok/s/卡, Decode 1,943 tok/s/卡。

昇腾950PR (2026 Q1商用, 推理专用) / 950DT (2026 Q4, 训练+推理)#

参数	950PR	950DT
FP8 Dense	~1 PFLOPS	~2 PFLOPS
FP4 Dense	1.56 PFLOPS	待公布
HBM	112 GB 自研HBM, 1.4 TB/s	待公布
TDP	600W	待公布
单卡性能	H20的2.87倍	—
架构	SIMD/SIMT同构设计	同

Atlas 950超节点： 最大支持8,192卡, FP8总8 EFLOPS, 总内存1,152 TB, 推理时延从50ms降至10ms。

昇腾970 (规划2028Q4)： FP4目标8 PFLOPS。

来源： 昇腾910C DeepSeek一体机, CloudMatrix 384超节点, Atlas 950

实际使用——DeepSeek V4里程碑#

2026年4月24日，DeepSeek V4成为全球首个完全脱离CUDA生态的万亿参数大模型。底层约40万个算子从CUDA重写为CANN架构，精度误差<0.5%。实测单卡Decode吞吐达4,700 TPS，推理成本降至NVIDIA方案的1/3。

来源： DeepSeek V4 on Ascend 950PR, DS V4脱离CUDA

软件栈#

CANN 9.0 (已全面开源)：1,500+基础算子, 100+融合算子
MindSpore：自研AI框架
vLLM-Ascend (官方社区插件)：遵循Hardware Pluggable架构, 支持LLaMA/Qwen/DeepSeek-V3/GLM-4
SGLang：原生支持昇腾NPU, 提供PD分离部署
PyTorch：华为维护的适配版本, 可一键转换CUDA代码
开发者生态超200万, 适配160+主流大模型, 服务600+企业

来源： vllm-ascend, SGLang Ascend Quick Start, CANN开源

寒武纪#

寒武纪思元系列是国产AI芯片第二大出货量。2025全年营收64.97亿元（+453%），首次年度盈利。极度依赖字节跳动（贡献96%营收）。

思元590 (7nm, 当前)#

参数	值
FP16 Dense	~256-345 TFLOPS
HBM	96 GB HBM2e
性能定位	A100的~80%

在字节跳动推荐系统中大规模部署，运行LLaMA3 70B推理仅比A100慢18%，成本低45%。

思元690 (5nm, Chiplet双Die, 2026量产)#

参数	值
FP16 Dense	>700 TFLOPS (思元590的2倍)
HBM	196 GB HBM3
双Die互联	>890 GB/s
价格	≥12万元/片
对标	H100的80%
适配	DeepSeek V3.1 UE8MOFP8

实际部署： 火山引擎平台已部署超2万张思元690卡。8卡全互联集群日均支撑10亿次AIGC内容生成。腾讯混元大模型训练测试思元690集群，误差<3%。

边缘芯片： 思元220-M.2已嵌入TikTok智能推荐系统，东南亚市场延迟降30%。

软件栈： Cambricon Neuware (类似CUDA), torch_mlu (PyTorch动态图适配), 通过FlagScale框架优化。适配DeepSeek-V3.1、Qwen3、GLM-4.6。**vLLM暂无明显官方支持。**开发者社区约10万人（vs CUDA 400万），软件生态是最大短板。

来源： 寒武纪字节跳动关系, 思元690部署, 寒武纪上市

阿里平头哥真武PPU#

阿里走全栈自研路线——“真武”PPU + “倚天”CPU + “磐脉”智能网卡 + “镇岳”存储主控 + ICN Switch互联芯片。

真武810E (2026年1月)#

参数	值
HBM	96 GB HBM2e
片间互联	700 GB/s
性能定位	与NVIDIA H20相当
累计出货	60万+片 (截至2026 Q1)

真武M890 (2026年5月20日发布)#

参数	值
HBM	144 GB
片间互联	800 GB/s
精度	FP32-FP4原生全精度
性能	810E的3倍
互联芯片	自研ICN Switch 1.0, P2P延迟<150纳秒
超节点	磐久AL128: 128张M890组成”一台计算机”

实际使用： Qwen3.7-Max旗舰模型在真武M890上推理，35小时内完成1,158次自主工具调用，推理速度提升10倍。截至2026年Q1累计出货60万片，服务国家电网、小鹏汽车、中国电信等400+客户。

路线图： V900 (2027 Q3, 3倍性能), J900 (2028 Q3, 全新架构)。

软件栈： 阿里云”芯-云-模型-推理”全栈体系。通过阿里云弹性GPU实例提供算力。PyTorch深度适配。公开文档较少，以内部使用为主。

来源： 真武M890发布, 阿里云峰会, AL128超节点

昆仑芯#

百度自研，已发展三代（R300→P800→M100/M300）。

昆仑芯P800 (XPU架构, 当前主力)#

已承载百度绝大多数AI推理任务
万卡集群训练ERNIE 5.1，有效训练率97%，线性扩展性>85%

昆仑芯M300 (7nm, 2027年初, 部分参数已公布)#

参数	值
FP16 Dense	62.8 TFLOPS
HBM	HBM3E, 1.2 TB/s
晶体管	>500亿 (3D堆叠)
计算单元	4,096个FP16单元
能效比	48.7 TOPS/W
空闲功耗	<15W (DVFS)
可编程逻辑	20% FPGA区域

超节点： 天池256 (2026 H1, 单卡吞吐增3.5倍), 天池512 (2026 H2, 完成万亿参数模型训练)。

实际客户： 招商银行、南方电网、吉利、Vivo、中国移动（十亿级集采）等上百家客户。

软件栈： PaddlePaddle (一行代码切至XPU), vLLM-Kunlun Plugin (已开源, 支持20+模型), FastDeploy。百度智能云出租昆仑芯算力。

来源： ERNIE 5.1 on Kunlunxin, 天池超节点, vLLM-Kunlun

摩尔线程#

国产全功能GPU路线，MUSA架构。2025年营收14.5-15.2亿元（+230%+）。

MTT S5000 (第四代”平湖”MUSA, 2024-2025主力)#

参数	值
FP8 Dense	1,000 TFLOPS (1 PFLOPS) — 国产首款PFLOPS级
精度支持	FP8 / FP16 / BF16 / TF32 / FP32 / FP64 全精度
显存	80 GB, 1.6 TB/s
卡间互联	784 GB/s
集群扩展效率	64→1024卡线性>90%
训练MFU	Dense 60%, MoE 40%
对标	H100级别

DeepSeek 671B满血版推理（与硅基流动联合）： Prefill >4,000 tok/s, Decode >1,000 tok/s (峰值1,024), 达H100同场景~61%实测性能。

夸娥万卡集群(KUAE 2.0)： 10 EFLOPS总算力。

第五代”花港”架构 (2025年12月发布, 2026量产)#

算力密度+50%, 能效提升10倍, 支持十万卡+集群
“华山” (AI训推, FP4-FP64全精度, 万卡集群)
“庐山” (渲染, 3A性能×15, AI×64, 光追×50)

软件栈——进展最迅猛的国产厂商#

MUSA 5.0：muDNN GEMM/FlashAttention效率>98%, 通信效率>97%
Torch-MUSA：算子突破1,050个, 支持FlashAttention
vLLM-MUSA：v1.3 prefill提10倍, 长上下文decode提3倍
SGLang (2026年5月重大里程碑!)：MUSA后端正式合入SGLang主线，47个PR已合入41个。支持DeepSeek(含V4)、Qwen3/3.5、GLM 4/5、MiniMax M2.5/M2.7
深度对接Triton/FlagOS和TileLang。摩尔线程是Mooncake核心Maintainer。

来源： MTT S5000 DeepSeek 671B, MUSA合入SGLang, Torch-MUSA

壁仞科技#

2025年营收10.35亿元（+207%）, 港交所上市。

壁砺166系列 (2025量产)#

参数	值
FP16 Dense	~800 TFLOPS (双BR106裸晶Chiplet)
显存	64 GB, 1.6 TB/s
精度	FP8/FP16
封装	CoWoS 2.5D

光跃超节点128卡商用版 (2026年3月)：搭载壁砺166L液冷模组 + 曦智科技硅光OCS光交换 + 中兴AI服务器。

BR20X系列 (2026年计划)#

5nm (台积电, 有制程受限风险), 原生FP8/FP4, 256 GB HBM3E, 2 TB/s互连, 640卡互联。

Day 0适配（最快记录）： 腾讯混元Hy3 (295B MoE), Kimi K2.6 (1T MoE), GLM-5.1 (744B MoE), DeepSeek-V4, 中国移动九天35B等。

软件栈： BIRENSUPA (全自研), AIModelMaster (自研GPU全栈智能体实现Day 0极速适配), 500+模型开箱即用。

来源： 壁仞2025年报, 光跃128卡, BR20X路线图

沐曦#

营收三年30倍增长 (2023: 0.53亿→2025: 16.44亿)。

曦云C500 (2024量产)#

参数	值
FP16 Dense	~240 TFLOPS
HBM	64 GB HBM2e

曦云C600 (2025底风险量产→2026 H1量产)#

参数	值
制程	12nm (中芯国际全国产)
HBM	144 GB HBM3e, >3.35 TB/s
精度	FP8-FP64全精度
互联	MetaXLink, 16-64卡超节点
架构	XCORE 1.5

实际部署： Shanghai Cube 128卡液冷集群运行DeepSeek 671B满血版推理。Qwen3-4B支持256K超长上下文。阶跃星辰Step 3.5 Flash Day 0适配。

云支持： 腾讯云TencentOS Server 4原生支持, OpenCloudOS 8/9原生支持。适配浪潮、联想等9家OEM。

软件栈： MXMACA SDK, PyTorch/TensorFlow, vLLM部署文档。

来源： 沐曦C600, Shanghai Cube集群, 腾讯云沐曦支持

海光信息#

深算DCU系列主打ROCm兼容——这是国产芯中最接近CUDA生态迁移的路径。

深算三号 (DCU 8300, 2025量产)#

参数	值
FP32	>24 TFLOPS
HBM	64 GB HBM3
制程	7nm+
CUDA兼容	算子兼容>99%
客户	字节/腾讯/阿里已批量供货

深算四号 (2026量产)#

参数	值
FP32	~150 TFLOPS
制程	7nm+/Chiplet
互联	CXL + 2.5D封装

实际使用： 海光技术团队已成功完成DeepSeek V3/R1适配并正式上线，在科教、金融、医疗等规模化应用。据报道DeepSeek V4训练确实选用了海光DCU+寒武纪MLU，核心算子重构200+个。

迁移周期： 模型迁移仅15-20天 (昇腾需45-60天)。

软件栈： DTK (DCU Toolkit) 兼容ROCm生态。vLLM在DCU上可用但量化版适配困难。HSI高速互联 (400 GB/s)。

来源： 海光DeepSeek适配, DS V4训练芯片

天数智芯#

累计交付5.2万片通用GPU, 服务290+客户, 900+次部署。2024年营收5.395亿元。

天垓150 (当前)#

参数	值
FP16 Dense	~192 TFLOPS
HBM	64 GB HBM2e
TPP性能密度	3,040

天垓200 (2026)#

面向大模型训练，细节待公布。路线图目标对标H200→B200 (算力需提升5-12倍)。

实际使用： 与无问芯穹合作在智铠百卡推理集群部署Infini-AI异构云平台。与Gitee AI合作一天内完成DeepSeek R1适配。中国电子云联合方案：芯片成本降15%, 推理并发增10倍+, 分布式训练加速近2倍。已支持36个大模型。

来源： 天数智芯招股, DS R1适配, 中国电子云方案

砺算#

国内首家全自研GPU (指令集→计算核心完全自主), 主攻图形渲染+“渲推一体”。

7G100 (6nm TrueGPU天图架构, 2026年6月发售)#

参数	值
制程	6nm
FP32 Dense	~24 TFLOPS
显存	12 GB GDDR6
PCIe	Gen4 x16
TBP	225W
价格	¥3,299 (国补后~¥2,969)
游戏性能	3DMark FireStrike 26,800; 黑神话1080P高>70 FPS
AI推理	本地部署Qwen3 32B、DeepSeek 14B、SD3

全球第四家通过微软WHQL认证的GPU厂商。支持NRSS超分 (对标DLSS/FSR)。专业版LX Ultra 24GB GDDR6+ECC。

生态： 适配海光/鲲鹏/飞腾/兆芯/龙芯CPU, Windows/麒麟/UOS/Ubuntu OS。AutoCAD/Solidworks/Blender等50+款专业软件。

来源： 砺算7G100首发, WHQL认证

综合对比总表#

国际旗舰芯片矩阵算力对比 (Dense, 单芯片)#

芯片	FP64 Mat	FP32 Mat	FP16/BF16	FP8	FP4/NVFP4	HBM	HBM BW	GPU间BW	PCIe
NVIDIA H100 SXM	67T	—	989T	1,979T	—	80GB H3	3.35T	900G (NV4)	G5
NVIDIA H200 SXM	67T	—	989T	1,979T	—	141GB H3e	4.8T	900G (NV4)	G5
NVIDIA B200	~40T	—	2,250T	4,500T	9,000T (NVFP4)	192GB H3e	8T	1.8T (NV5)	G5
NVIDIA B300	~40T	—	~3,375T?	5,000T	15,000T (NVFP4)	288GB H3e	8T	1.8T (NV5)	G5
NVIDIA Rubin	—	—	—	~14,000T	50,000T (NVFP4)	288GB H4	22T	3.6T (NV6)	—
AMD MI300X	163.4T	163.4T	1,307.4T	2,614.9T	—	192GB H3	5.3T	~896G (IF)	G5
AMD MI355X	78.6T	157.3T	2,500T	5,000T	10,100T (MXFP4)	288GB H3e	8T	1,075G (IF)	G5
AMD MI400	—	—	10,000T	20,000T	40,000T	432GB H4	19.6T	300G (UAL)	—
Google TPU v7	—	—	—	4,614T	—	192GB H3e	7.4T	1.2T (ICI)	—
Amazon Trn3	—	—	—	2,520T	MXFP4	144GB H3e	4.9T	NeuroSwitch	—
MS Maia 200	—	—	—	5,072T	10,145T	216GB H3e	7T	2.8T (Eth)	—
Intel Gaudi 3	—	—	1,835T†	1,835T	—	128GB H2e	3.7T	1.2T (Eth)	G5
Groq LPU v3	—	—	—	1,200T	—	0.5GB SRAM	150T (SRAM)	2.5T	G5
Cerebras WSE-3	—	—	125,000T	—	—	44GB SRAM	21,000T (SRAM)	214,000T (Fabric)	—
SambaNova SN50	—	—	—	3,200T	—	64GB H2e	1.8T	2.2T	—
Tenstorrent BH	—	—	—	664T (BlkFP8)	—	32GB G6	0.5T	3.2T (Eth)	G5

注：T=TFLOPS(PFLOPS已折算), H3=HBM3, H3e=HBM3e, H4=HBM4, H2e=HBM2e, G6=GDDR6, NV=NVLink, IF=Infinity Fabric, Eth=以太网, UAL=UALink, G5=PCIe Gen5。†Gaudi 3 BF16为8个MME矩阵引擎, 非TPC向量。Cerebras WSE-3的125 PFLOPS为系统级(900,000核)FP16。

国产芯片矩阵算力对比 (Dense, 单芯片)#

芯片	FP16/BF16	FP8	FP4	HBM/显存	显存BW	卡间互联	制程	PCIe
昇腾950PR	—	~1,000T	1,560T	112GB(自研)	1.4T	HCCS	7nm	—
思元690	>700T	—	—	196GB H3	—	>890G	5nm	—
真武M890	—	—	—	144GB	—	800G (ICN)	—	—
昆仑芯M300	62.8T	—	—	H3E, 1.2T	—	—	7nm	—
MTT S5000	BF16/FP16	1,000T	—	80GB	1.6T	784G	—	—
壁砺166M	~800T	✓	—	64GB, 1.6T	—	—	7nm	—
曦云C600	—	✓	—	144GB H3e	>3.35T	MetaXLink	12nm	—
深算四号	—	—	—	Chiplet	—	HSI 400G	7nm+	—
天垓150	~192T	—	—	64GB H2e	—	—	—	—
砺算7G100	—	—	—	12GB G6	—	—	6nm	G4

超节点与集群方案对比#

厂商	超节点方案	芯片数	总算力 (峰值)	总HBM	互联技术	状态
NVIDIA	GB200 NVL72	72 B200	1.44 EF FP4	13.5 TB	NVLink5+NVSwitch (130 TB/s)	H2 2024
NVIDIA	DGX SuperPOD B200	576 B200	11.5 EF FP4	108 TB	NVLink5 域 (>1 PB/s)	2025
NVIDIA	Rubin NVL72	72 Rubin	3.6 EF FP4	20.7 TB	NVLink6 (259 TB/s est)	H2 2026
AMD	8×MI355X UBB	8 MI355X	80.5 PF FP4	2.3 TB	IF4全网状 (~1 TB/s)	H2 2025
AMD	Helios (MI400)	72 MI455X	2.9 EF FP4	31 TB	UALink (43 TB/s scale-out)	H2 2026
Google	TPU v7 SuperPod	9,216 Ironwood	42.5 EF FP8	~1.77 PB	ICI硅光子 (9.6 Tb/s)	2025
Amazon	Trn3 UltraServer	144 Trn3	362 PF FP8	20.7 TB	NeuronSwitch-v1	2025
MS	Maia 200 Scale-Up	6,144 Maia 200	~31 EF FP4	1,327 TB	标准以太网	2026
Cerebras	CS-3 Cluster	2,048 CS-3	256 EF FP16	—	晶圆上Fabric	2024+
Groq	LPX Rack	256 Groq 3	315 PF FP8	128 GB SRAM	Dragonfly (640 TB/s)	H2 2026
华为	Atlas 950超节点	8,192 昇腾	8 EF FP8	1,152 TB	HCCS	2026
华为	CloudMatrix 384	384 910C	—	—	HCCS	2025
阿里	磐久AL128	128 M890	—	18.4 TB	ICN Switch (<150ns P2P)	2026
昆仑芯	天池512	512 M300	—	—	天池互联	2026 H2
摩尔线程	夸娥万卡	>10,000 S5000	10 EF	—	MUSA互联	2024-25
壁仞	光跃128卡	128 壁砺166L	—	—	硅光OCS交换	2026
海光	天池256/512	256 DCU	—	—	HSI	2026

软件生态对比#

厂商	PyTorch	vLLM	SGLang	Triton/TileLang	Megatron/FSDP	DeepSpeed	自研框架
NVIDIA	最成熟	官方	官方	Triton原生	Megatron-LM原生	全支持	CUDA/cuDNN/TensorRT
AMD	ROCm成熟	Moreh优化	官方Docker	支持	FSDP(较好)	每两周更	ROCm/HIP
Google TPU	XLA后端	XLA适配	—	—	—	—	JAX(主力)
Amazon Trn	Neuron SDK	支持	—	支持	FSDP	—	Neuron Kernel
MS Maia	支持	—	—	支持	—	—	NPL语言
华为	torch-npu	官方vllm-ascend	原生支持	TileLang	适配中	支持	CANN/MindSpore
寒武纪	torch_mlu	社区适配	—	—	FlagScale	—	Neuware
阿里	深度适配(内)	—	—	—	—	—	自研
昆仑芯	PaddlePaddle原生	vLLM-Kunlun	—	—	—	—	XPU SDK
摩尔线程	Torch-MUSA(1,050算子)	vLLM-MUSA	主线合入!	Triton+TileLang	支持	支持	MUSA
壁仞	br_pytorch	vLLM	SGLang	—	—	—	BIRENSUPA
沐曦	支持	vLLM	—	—	—	—	MXMACA
海光	DTK(PyTorch)	有限	—	—	—	—	DTK(ROCm兼容)
天数智芯	多框架适配	—	—	—	—	—	自研
砺算	推理级	—	—	—	—	—	TrueGPU SDK

实际部署验证#

下表汇总各芯片是否有公开可验证的训练或推理大规模部署证据：

芯片	训练证据	推理证据	代表模型/客户	部署规模
NVIDIA H100	✅✅✅	✅✅✅	GPT-4, Llama 3, Grok, DS V3	全球百万级
NVIDIA B200	🔶 初期	✅	GB200 NVL72 (CoreWeave/Azure)	万级+
AMD MI300X	🔶 有限	✅✅✅	Llama 405B (Meta), GPT-4 (Azure)	十万级
AMD MI355X	🔶 MLPerf验证	✅✅	DeepSeek-R1, Llama 3.1 (MLPerf)	样品/早期
Google TPU v7	✅✅	✅✅✅	Gemini, Claude	数十万片
Amazon Trn3	✅✅	✅✅✅	Claude (Anthropic), Bedrock	百万级
MS Maia 200	❓	✅✅	GPT-5.2, Copilot	Azure部署
Intel Gaudi 3	🔶	🔶	IBM Cloud	小规模
Groq LPU	❌ (不训)	✅✅✅	Llama, Kimi, GPT-OSS (GroqCloud)	~19,000片
Cerebras WSE-3	✅✅	✅✅✅	Codex Spark (OpenAI), Llama	大型集群
华为昇腾	✅✅✅ (910B/910C)	✅✅✅ (950PR)	DS V4脱离CUDA, Pangu, Qwen	81.2万片
寒武纪	🔶 (腾讯测试)	✅✅✅	字节推荐+AIGC (2万+卡), TikTok	万级+
阿里真武	❓	✅✅✅	Qwen3.7-Max, 400+客户	60万片出货
昆仑芯	✅✅✅	✅✅✅	ERNIE 5.1万卡训练	万卡集群
摩尔线程	✅ (DS V3训)	✅✅✅	DS 671B推理, QuEra集群	万卡集群
壁仞	❓	✅✅✅	Kimi K2.6, GLM-5.1, 混元Hy3	数千卡
沐曦	❓	✅✅	DS 671B (Shanghai Cube), Qwen3	百-千卡级
海光	✅✅	✅✅	DS V3/R1/V4训练+推理	智算中心级
天数智芯	✅ (异构)	✅✅	DS R1, 290+客户	5.2万片交付
砺算	❌ (非此定位)	🔶 (端侧)	Qwen3 32B本地, SD3	消费级

图例：✅✅✅ 大规模生产级, ✅✅ 确认部署, ✅ 公开验证, 🔶 有限/初期, ❓ 无公开证据, ❌ 不适用

结论与展望#

核心趋势#

FP4成为2025-2026推理的主力精度。NVIDIA的NVFP4、AMD的MXFP4、Intel的BlockFP4、Microsoft的原生FP4——所有主流厂商都走向了4-bit推理。训练仍以FP8/BF16为主。
机架级系统取代单卡竞争。NVL72、Helios、SuperPod、UltraServer——竞争的粒度从”每颗GPU”变为”每机架/每集群”。NVIDIA的NVSwitch/NVLink构成了当前最坚固的护城河。
推理取代训练成为首要设计目标。Google Ironwood是”首款推理时代TPU”，Groq LPU、SambaNova RDU、Cerebras CS-3均以推理为核心。预计2030年推理消耗75%的AI算力。
国产芯片已突破”能用”门槛。DeepSeek V4脱离CUDA在昇腾950PR上运行是最具标志性的事件。但要达到”好用”（软件生态、稳定性、性能优化），国产厂商仍需2-3年追赶。

各梯队定位#

第一梯队 (全面领先)： NVIDIA — 从芯片架构到NVLink/NVSwitch系统级整合到CUDA软件生态，尚无短板。

第二梯队 (有竞争力但不全面)： AMD (推理性价比接近, 训练/软件滞后), Google TPU (推理第一, 但不外售), Amazon Trainium (成本优势, 芯片性能非最强)。

第三梯队 (特定场景有优势): Cerebras (超大模型训练), Groq (超低延迟推理), SambaNova (Agent推理), Microsoft Maia (Azure整合)。

国产第一梯队 (已量产验证): 华为昇腾 (生态最完善), 阿里真武 (出货量大), 寒武纪 (字节生态), 昆仑芯 (训练验证最充分), 摩尔线程 (软件生态进展最快)。

国产第二梯队 (追赶中): 海光 (ROCm兼容), 壁仞 (硅光互联), 沐曦 (全国产供应链), 天数智芯 (商业落地务实)。

关键风险#

CUDA锁定：即便硬件性能追平, 开发者生态和库成熟度仍需要时间。
制程受限：国产芯片制程普遍落后国际2-3代。
互联瓶颈：节点内GPU间通信是国产与NVIDIA差距最大的环节之一。
客户集中度：寒武纪96%营收依赖字节跳动, 风险极高。
Intel/Graphcore教训：软件生态不成熟+部署复杂可直接导致商业失败。

数据截止日期： 2026年5月21日。部分规划产品参数为业界预测值，实际以官方发布为准。

主要信息来源： NVIDIA/AMD/Google/Amazon/Microsoft/Meta官方技术博客和白皮书, MLPerf v5.1/v6.0结果, ISSCC/Hot Chips会议论文, 各公司财报与招股书, 行业研报与技术媒体。

目录#

引言#

国际厂商#

NVIDIA#

Hopper架构：H100 / H200#

Blackwell架构：B200 / GB200#

Vera Rubin架构 (2026年下半年)#

实际使用情况#

软件栈#

AMD#

MI300X (CDNA 3, 当前主力)#

MI355X (CDNA 4, 2025下半年)#

MI400系列 (CDNA Next/UDNA, 2026下半年)#

实际部署#

软件栈：ROCm 7#

Google TPU#

TPU v6 “Trillium” (2024, 当前量产)#

TPU v7 “Ironwood” (2025年4月发布, 2025年11月GA)#

Amazon AWS Trainium#

Trainium 2 (2024年12月GA)#

Trainium 3 (2025年12月GA)#

Microsoft Maia#

Maia 200 (2026年1月发布, 已部署)#

Meta MTIA#

MTIA v2 (2025年部署, 2026年3月公开)#

Intel Gaudi 3 & Jaguar Shores#

Gaudi 3 (2024 Q4 GA, 当前产品)#

Jaguar Shores (2026年, 唯一未来赌注)#

Groq LPU#

Groq 3 LPU (LP30, 三星SF4X 4nm, 2026下半年)#

Cerebras WSE-3#

SambaNova RDU#

SN40L (第4代, 台积电5nm, 当前)#

SN50 (第5代, 2026下半年)#

Tenstorrent Blackhole#

Blackhole p150 (6nm, 当前出货)#

Graphcore Bow IPU#

国产厂商#

华为昇腾#

昇腾910B / 910C#

昇腾950PR (2026 Q1商用, 推理专用) / 950DT (2026 Q4, 训练+推理)#

实际使用——DeepSeek V4里程碑#

软件栈#

寒武纪#

思元590 (7nm, 当前)#

思元690 (5nm, Chiplet双Die, 2026量产)#

阿里平头哥 真武PPU#

真武810E (2026年1月)#

真武M890 (2026年5月20日发布)#

昆仑芯#

昆仑芯P800 (XPU架构, 当前主力)#

昆仑芯M300 (7nm, 2027年初, 部分参数已公布)#

摩尔线程#

MTT S5000 (第四代”平湖”MUSA, 2024-2025主力)#

第五代”花港”架构 (2025年12月发布, 2026量产)#

软件栈——进展最迅猛的国产厂商#

壁仞科技#

壁砺166系列 (2025量产)#

BR20X系列 (2026年计划)#

沐曦#

曦云C500 (2024量产)#

曦云C600 (2025底风险量产→2026 H1量产)#

海光信息#

深算三号 (DCU 8300, 2025量产)#

深算四号 (2026量产)#

天数智芯#

天垓150 (当前)#

天垓200 (2026)#

砺算#

7G100 (6nm TrueGPU天图架构, 2026年6月发售)#

综合对比总表#

国际旗舰芯片矩阵算力对比 (Dense, 单芯片)#

国产芯片矩阵算力对比 (Dense, 单芯片)#

超节点与集群方案对比#

软件生态对比#

实际部署验证#

结论与展望#

核心趋势#

各梯队定位#

关键风险#

阿里平头哥真武PPU#