7.4
深览指数
科技微博·机器之心Pro··AI 生成

陈天奇新书上线:面向ML系统的现代GPU编程

CMU助理教授陈天奇发布免费在线书籍《Modern GPU Programming For MLSys》,聚焦Blackwell架构下高性能GPU kernel的编写方法,以GEMM和FlashAttention为实战案例。书籍脱胎于CMU课程,目标是为大模型训练中的瓶颈——注意力机制kernel、MoE层等——提供系统化、可实操的优化路径。内容覆盖从硬件模型到TMA、Tensor Core等高级特性,适合有GPU编程基础但希望深入系统优化技术的ML工程师。原文 ↗

核心观点
  • 大模型训练推理速度取决于少数关键GPU kernel的实现质量,而随着Blackwell等架构演进,仅靠优化技巧清单已不够,需系统理解硬件模型及高性能构建方法。
  1. 01书籍主线围绕Blackwell架构,贯穿GEMM和FlashAttention两个实战案例。
  2. 02全书分四部分:GPU执行模型与性能分析、TIRx DSL介绍、GEMM从简单到SOTA的优化递进、FlashAttention 4完整构建。
  3. 03内容直接涉及TMA、Tensor Core、TMEM、mbarrier、warp specialization等Blackwell核心特性。
  4. 04书籍免费在线发布,未录制公开课视频,以图文和交互式演示弥补。
  5. 05陈天奇是TVM、XGBoost、MLC-LLM等开源项目创始人,同时为NVIDIA杰出工程师,兼具学术与产业背景。
  6. 06书籍脱胎于CMU机器学习系统课程新增的GPU编程迷你课程,直接对标业界前沿。
反方 / 局限
  • 书籍未录制视频版,对习惯视频学习的读者可能门槛较高,且依赖TIRx DSL(非标准工具),读者需额外学习DSL本身。
4 分钟 · 4 卡片 · 9 资料
读原文 →

前置背景

平行视角

未来推演

延伸追问