陈天奇新书上线：面向ML系统的现代GPU编程

7.4

深览指数

科技微博·机器之心Pro·昨天 15:25·AI 生成

陈天奇新书上线：面向ML系统的现代GPU编程

CMU助理教授陈天奇发布免费在线书籍《Modern GPU Programming For MLSys》，聚焦Blackwell架构下高性能GPU kernel的编写方法，以GEMM和FlashAttention为实战案例。书籍脱胎于CMU课程，目标是为大模型训练中的瓶颈——注意力机制kernel、MoE层等——提供系统化、可实操的优化路径。内容覆盖从硬件模型到TMA、Tensor Core等高级特性，适合有GPU编程基础但希望深入系统优化技术的ML工程师。原文 ↗原文 ↗

核心观点

▍大模型训练推理速度取决于少数关键GPU kernel的实现质量，而随着Blackwell等架构演进，仅靠优化技巧清单已不够，需系统理解硬件模型及高性能构建方法。

01书籍主线围绕Blackwell架构，贯穿GEMM和FlashAttention两个实战案例。
02全书分四部分：GPU执行模型与性能分析、TIRx DSL介绍、GEMM从简单到SOTA的优化递进、FlashAttention 4完整构建。
03内容直接涉及TMA、Tensor Core、TMEM、mbarrier、warp specialization等Blackwell核心特性。
04书籍免费在线发布，未录制公开课视频，以图文和交互式演示弥补。
05陈天奇是TVM、XGBoost、MLC-LLM等开源项目创始人，同时为NVIDIA杰出工程师，兼具学术与产业背景。
06书籍脱胎于CMU机器学习系统课程新增的GPU编程迷你课程，直接对标业界前沿。

反方 / 局限

— 书籍未录制视频版，对习惯视频学习的读者可能门槛较高，且依赖TIRx DSL（非标准工具），读者需额外学习DSL本身。

陈天奇 CMU NVIDIA TVM XGBoost MLC-LLM Blackwell架构 GEMM FlashAttention TIRx Tensor Core TMA MoE层 MLSys

4 分钟 · 4 卡片 · 9 资料

读原文 →

陈天奇新书上线：面向ML系统的现代GPU编程

前置背景

平行视角

未来推演

延伸追问