7.1
深览指数
科技腾讯新闻··AI 生成
网友提问“中国大模型何时达到Fable级别?”,马斯克“可能明年Q1”,智谱CEO唐杰“不需要那么久”
一场关于中国大模型追赶时间表的公开辩论在X平台展开,由智谱GLM-5.2的发布触发。博主Teortaxes认为差距7个月,马斯克预测2027年Q1,并强调应以“真实实用性”而非基准测试衡量;智谱CEO唐杰则更乐观。文章以GLM-5.2在FrontierSWE等基准上逼近Anthropic Opus 4.8的数据为切点,分析技术追赶现状,并指出Anthropic模型下架事件为开源模型提供了“技术主权”叙事,加速了市场格局重塑。适合关注AI竞争格局、大模型技术路线及地缘政治影响的读者。原文 ↗
核心观点
- ▍中国大模型在关键编程基准上已逼近顶级闭源模型,关于追赶时间表的争论(7个月到“不需要那么久”)揭示了技术差距正在快速缩小,但“真实实用性”仍是关键分水岭。
- 01智谱GLM-5.2(753B参数)在长程编程基准FrontierSWE上得分74.4,仅落后Anthropic Opus 4.8约1个百分点,并超过GPT-5.5的72.6。
- 02在PostTrainBench上,GLM-5.2(34.3分)排名第二,仅次于Opus 4.8(37.2),高于GPT-5.5(28.4)。
- 03马斯克回复称,以“真实实用性”衡量,2027年Q1达到Fable级别已相当出色,并指出Anthropic的优势在于提升这种不直接体现在基准分数上的真实智能。
- 04博主Teortaxes推算中国模型达到完整“Fable”级别的时间窗口在2026年11月至12月,其逻辑基于Mythos模型达到特定能力水平的时间点。
- 05谷歌DeepMind CEO哈萨比斯此前表示,中国AI模型在能力上可能“只差几个月”就能赶上海外。
- 06Anthropic因美国商务部出口管制而下架Fable 5和Mythos 5模型,关闭全球访问权限。
- 07唐杰在X平台发文,将开源与“科学应当是全球的”“通往AGI的道路绝不能由高墙围困”等叙事关联,该推文获88万次浏览。
- 08文章引述观点(zerohedge)称,当“10%的智能差距”可能对应“90%的成本优势”时,逾5万亿的资本配置存在错配风险。
反方 / 局限
- — 在最极端的SWE-Marathon基准上,GLM-5.2得分为13.0,而Opus 4.8为26.0,差距显著,表明在极高难度任务上国产模型仍有较大短板。
- — 马斯克的观点暗示,基准测试的追赶可能过度乐观,实际用户对模型智能的“感知”和“信任”可能滞后于分数变化,这是难以用技术指标量化的鸿沟。
马斯克唐杰智谱AIAnthropicGLM-5.2Fable 5Mythos 5Opus 4.8FrontierSWE美国商务部出口管制Teortaxes谷歌DeepMind哈萨比斯OpenRouter开源模型长程任务
7 分钟 · 4 卡片 · 12 资料
读原文 →