科技微博·机器之心Pro··AI 生成
陈天奇新书上线:面向ML系统的现代GPU编程
CMU助理教授陈天奇发布免费在线书籍《Modern GPU Programming For MLSys》,聚焦Blackwell架构下高性能GPU kernel的编写方法,以GEMM和FlashAttention为实战案例。书籍脱胎于CMU课程,目标是为大模型训练中的瓶颈——注意力机制kernel、MoE层等——提供系统化、可实操的优化路径。内容覆盖从硬件模型到TMA、Tensor Core等高级特性,适合有GPU编程基础但希望深入系统优化技术的ML工程师。原文 ↗原文 ↗
核心观点
- ▍大模型训练推理速度取决于少数关键GPU kernel的实现质量,而随着Blackwell等架构演进,仅靠优化技巧清单已不够,需系统理解硬件模型及高性能构建方法。
- 01书籍主线围绕Blackwell架构,贯穿GEMM和FlashAttention两个实战案例。
- 02全书分四部分:GPU执行模型与性能分析、TIRx DSL介绍、GEMM从简单到SOTA的优化递进、FlashAttention 4完整构建。
- 03内容直接涉及TMA、Tensor Core、TMEM、mbarrier、warp specialization等Blackwell核心特性。
- 04书籍免费在线发布,未录制公开课视频,以图文和交互式演示弥补。
- 05陈天奇是TVM、XGBoost、MLC-LLM等开源项目创始人,同时为NVIDIA杰出工程师,兼具学术与产业背景。
- 06书籍脱胎于CMU机器学习系统课程新增的GPU编程迷你课程,直接对标业界前沿。
反方 / 局限
- — 书籍未录制视频版,对习惯视频学习的读者可能门槛较高,且依赖TIRx DSL(非标准工具),读者需额外学习DSL本身。
前置背景
平行视角
未来推演
延伸追问