6.5
深览指数
科技量子位··AI 生成

GLM-5.3你来定!智谱唐杰全球征集意见,评论区清一色:视觉

智谱AI灵魂人物唐杰公开征集下一代模型GLM-5.3的功能意见,评论区呼声最高的需求是「视觉」能力。文章揭示了智谱在旗舰模型上长期坚持纯文本路线,刻意「分开发展」视觉与文本推理,认为多模态对提升AGI智能上限帮助有限;但同时指出,竞争对手如Kimi K2.5、Qwen3.5-Omni、Gemini 3均已实现原生多模态,GLM的视觉短板已成用户痛点与市场竞争的紧迫问题。适合关注大模型演进路线的技术决策者、AI产品经理及开源社区参与者,在评估多模态技术优先级时参考。原文 ↗

核心观点
  • 智谱旗舰模型GLM系列长期聚焦纯文本推理,有意识地将视觉能力分开发展,源于唐杰认为当下多模态对提升AGI智能上界帮助有限。
  1. 01两周前开源的GLM-5.2是纯文本模型,支持百万Token超长上下文和深度逻辑推理,但未搭载视觉编码器,不能看图或生成图像。
  2. 02用户对比对象Fable-5是原生多模态模型,力压GLM-5.2居于全球第二。
  3. 03智谱并非缺乏视觉技术;其已发布GLM-5V-Turbo(原生多模态Coding基座,预训练阶段融合视觉与文本),并自研CogVLM视觉编码器,唐杰本人发表过大量视觉论文。
  4. 04唐杰在去年底大模型总结中明确表示:多模态是未来,但「对提升AGI的智能上界,帮助有限」,认为最有效的方式是分开发展文本与多模态。
  5. 05竞争对手已全面押注多模态: Kimi K2.5是原生多模态(2026年1月),Qwen3.5-Omni端到端统一文本/图像/音频/视频(2026年3月),Gemini 3也原声文图音视频一体。
  6. 06唐杰征集意见帖浏览量达40万+,评论区最多人反馈的需求是「视觉」。
反方 / 局限
  • 文章自身指出,用户与厂商视角存在差异:用户在乎「眼下贴张图模型能不能接住」,而唐杰关注的是第一性原理——模型智能。这一视角分歧本身暗示了将视觉能力放在更优先位置的合理性。
  • 文章引介的唐杰观点也没有被拒绝,但通过列举对手多模态进展,潜在地质疑了智谱现行策略的可持续性。
6 分钟 · 4 卡片 · 11 资料
读原文 →

前置背景

平行视角

未来推演

延伸追问