DeepSeek MegaMoE:MoE 推理的单 Kernel 融合与通信计算重叠
2026 年 4 月,DeepSeek 在 DeepGEMM 仓库的 PR #304 中引入了一个新的 MoE 推理实现。其核心设计是将 dispatch、两层 GEMM、SwiGLU 激活、combine 全部合并到一个 CUDA kernel 中,利用 Warp Specialization 使 NVLink 通信与 Tensor Core 计算在同一 SM 上并发执行。
6101 字
|
31 分钟
PTX ISA
Reference: PTX ISA 8.3 (nvidia.com)
274 字
|
1 分钟
Hello World
2023-12-06
Welcome to Hexo! This is your very first post. Check documentation for more info. If you get any problems when using Hexo, you can find the answer in troubleshooting or you can ask me on GitHub.
65 字
|
1 分钟