7.3
深览指数
科技腾讯新闻··AI 生成
3B小模型,编程得分比肩Opus 4.5,神秘模型引发热议,原是国产
新浪微博团队发布仅30亿参数的VibeThinker-3B模型,在编程、数学等可验证推理任务上达到与GPT-5、Claude Opus 4.5等前沿大模型相近的水平,引发热议。文章揭示了该模型的核心主张「参数压缩覆盖假设」:推理能力与事实知识部分解耦,前者可在小模型上高效压缩实现。技术细节包括基于Qwen2.5-Coder-3B的Spectrum-to-Signal训练流程以及Claim-Level可靠性评估(CLR)测试时扩展策略。适合关注AI模型设计趋势、小模型能力边界的从业者与研究者阅读。原文 ↗
核心观点
- ▍推理能力与事实知识在模型参数中可能是部分解耦的,前者可以在小模型中高效压缩并接近前沿水平,此即「参数压缩覆盖假设」。
- ▍VibeThinker-3B (30亿参数) 在编程、数学等可验证推理基准上达到了与GPT-5、Claude Opus 4.5等数百亿参数大模型同等的性能区间。
- 01在AIME26数学测试中得94.3分,HMMT25测试中得89.3分,LiveCodeBench v6编程测试中得80.2分(Pass@1)。
- 02在2026年4月25日至5月31日期间LeetCode最新未公开的周赛和双周赛中取得了96.1%的通过率。
- 03引入Claim-Level可靠性评估(CLR)策略后,AIME26从94.3提升至97.1,HMMT25从89.3提升至95.4,BruMO25达到99.2。
- 04模型基于Qwen2.5-Coder-3B构建,训练流程包含基于课程的两阶段SFT、多领域推理强化学习(MGPO)、离线自蒸馏和指令强化学习(Instruct RL)。
反方 / 局限
- — 官方明确指出模型在需要通用知识和开放领域对话的任务上表现不佳,其适用范围有明确限制。
- — 作者表示该模型不是要替代大模型,而是沿着特定能力维度审视小模型真实边界,目前社区也存在一些质疑。
VibeThinker-3B参数压缩覆盖假设Spectrum-to-SignalClaim-Level可靠性评估(CLR)MGPOQwen2.5-Coder-3B新浪微博AIME26HMMT25LiveCodeBenchLeetCodeVentureBeatSebastian Raschka
8 分钟 · 3 卡片 · 6 资料
读原文 →