清华特奖获得者顾煜贤，加入DeepSeek

5.1

深览指数

科技腾讯新闻·机器之心·5小时前·AI 生成

清华特奖获得者顾煜贤，加入DeepSeek

清华大学博士生、2025年研究生特等奖学金获得者顾煜贤已正式加入DeepSeek，其研究聚焦大语言模型全生命周期效率提升，包括预训练数据筛选、知识蒸馏及高效模型架构。文章介绍了顾煜贤的代表性工作，如MiniLLM知识蒸馏方法和Jet-Nemotron混合架构，后者在效率上实现显著加速。适合关注AI前沿技术、人才流动及大模型效率优化的深度读者阅读。原文 ↗原文 ↗

核心观点

▍清华特奖获得者顾煜贤已加入DeepSeek，其研究重点在于通过算法创新（如数据筛选、知识蒸馏、高效架构）突破大模型计算瓶颈，尤其在硬件资源受限时提升效率。

01顾煜贤在Google Scholar的论文引用量已近5000，代表作包括《Pre-trained models: Past, present and future》和《MiniLLM: Knowledge distillation of large language models》，引用量均超1000。
02顾煜贤提出的MiniLLM方法利用反向KL散度替代正向KL散度进行知识蒸馏，能生成更精准的回答，且具备更低的曝光偏差和更强的长文本生成性能，已被谷歌、阿里、英伟达等采用。
03顾煜贤参与的Jet-Nemotron是一种混合架构语言模型，核心创新包括后神经架构搜索（PostNAS）和JetBlock线性注意力模块，2B版本性能可赶超Qwen3、Llama3.2等SOTA开源模型。
04在H100 GPU上，Jet-Nemotron的生成吞吐量实现了高达53.6倍的加速（上下文长度256K），并在MMLU和MMLU-Pro基准上超过部分MoE全注意力模型如DeepSeek-V3-Small。
05顾煜贤的研究方向覆盖预训练数据筛选、知识蒸馏和高效模型架构，代表性工作包括PDS、Instruction Pre-training、Learning Law、MiniLLM、MiniPLM和Jet-Nemotron。
06顾煜贤曾获2025年度苹果博士奖学金以及蚂蚁In-Tech奖学金，师从清华大学交互式人工智能课题组（CoAI）的黄民烈教授。

顾煜贤 DeepSeek 清华大学黄民烈 MiniLLM Jet-Nemotron PostNAS JetBlock Knowledge Distillation CoAI 苹果博士奖学金蚂蚁In-Tech奖学金

6 分钟 · 4 卡片 · 11 资料

读原文 →

清华特奖获得者顾煜贤，加入DeepSeek

概念锚点

前置背景

平行视角

未来推演