5.1
深览指数
科技腾讯新闻·机器之心··AI 生成
清华特奖获得者顾煜贤,加入DeepSeek
清华大学博士生、2025年研究生特等奖学金获得者顾煜贤已正式加入DeepSeek,其研究聚焦大语言模型全生命周期效率提升,包括预训练数据筛选、知识蒸馏及高效模型架构。文章介绍了顾煜贤的代表性工作,如MiniLLM知识蒸馏方法和Jet-Nemotron混合架构,后者在效率上实现显著加速。适合关注AI前沿技术、人才流动及大模型效率优化的深度读者阅读。原文 ↗
核心观点
- ▍清华特奖获得者顾煜贤已加入DeepSeek,其研究重点在于通过算法创新(如数据筛选、知识蒸馏、高效架构)突破大模型计算瓶颈,尤其在硬件资源受限时提升效率。
- 01顾煜贤在Google Scholar的论文引用量已近5000,代表作包括《Pre-trained models: Past, present and future》和《MiniLLM: Knowledge distillation of large language models》,引用量均超1000。
- 02顾煜贤提出的MiniLLM方法利用反向KL散度替代正向KL散度进行知识蒸馏,能生成更精准的回答,且具备更低的曝光偏差和更强的长文本生成性能,已被谷歌、阿里、英伟达等采用。
- 03顾煜贤参与的Jet-Nemotron是一种混合架构语言模型,核心创新包括后神经架构搜索(PostNAS)和JetBlock线性注意力模块,2B版本性能可赶超Qwen3、Llama3.2等SOTA开源模型。
- 04在H100 GPU上,Jet-Nemotron的生成吞吐量实现了高达53.6倍的加速(上下文长度256K),并在MMLU和MMLU-Pro基准上超过部分MoE全注意力模型如DeepSeek-V3-Small。
- 05顾煜贤的研究方向覆盖预训练数据筛选、知识蒸馏和高效模型架构,代表性工作包括PDS、Instruction Pre-training、Learning Law、MiniLLM、MiniPLM和Jet-Nemotron。
- 06顾煜贤曾获2025年度苹果博士奖学金以及蚂蚁In-Tech奖学金,师从清华大学交互式人工智能课题组(CoAI)的黄民烈教授。
6 分钟 · 4 卡片 · 11 资料
读原文 →