6.5
深览指数
科技微博·机器之心Pro··AI 生成

刚刚,DeepSeek识图模式全量上线,却认不出自家老板梁文锋

DeepSeek 识图模式全量上线后,经机器之心编辑部实测,其在多项任务上表现不佳:认不出自家老板梁文锋、误判黄仁勋照片中的豆汁为牛奶、潦草汉字识别率低、钢琴和弦识别错误。文章以具体案例和对比评测,揭示了当前多模态大模型在视觉理解、真实场景文本识别及安全限制上的共性问题,而非仅介绍功能更新。适合关注大模型产品落地与实际能力边界的读者。原文 ↗

核心观点
  • DeepSeek 识图模式全量上线,但实测显示其在人物识别、手写文本识别、逻辑及音乐推理等多模态任务上存在显著缺陷,且安全限制过于严格。
  1. 01DeepSeek 未能识别出老板梁文锋,且认错何同学等知名人物,主要依靠面部特征与公众形象对比,准确率不高。
  2. 02对于黄仁勋喝豆汁的图片,DeepSeek 忽略了瓶身上的「尹三豆汁」字样,将豆汁误判为牛奶;但切换到深度思考模式后,能凭借推理能力推断出是豆汁。
  3. 03在手写潦草汉字测试中,7 个字识别错了 4 个,模型在真实场景手写文本识别和语义纠错方面仍有提升空间。
  4. 04在钢琴和弦识别测试中,DeepSeek 判断错误,而 Gemini 3.5 flash、GPT 5.5 等竞品也无一答对,Claude Sonnet 4.6 甚至直接罢工,说明大模型在乐理推理上存在共性局限。
  5. 05上传雷军的图片被系统提示「可能违反使用规范」,安全限制较为严格。
  6. 06在找出完全相同袜子的视觉逻辑题中,DeepSeek 也未能正确回答。
反方 / 局限
  • 文章在测试中承认「识别文物的能力相当不错」,成功判断出文物是莫卧儿帝国风格并分析了工艺,暗示模型在某些特定领域(如文物)的视觉理解能力尚可。
  • 文章末尾提到目前识图模式与 DeepSeek 4.1 的关系、是否采用原生多模态、API 上线时间均为未知,说明功能尚处早期,后续技术文档可能带来改进或澄清。
DeepSeek 识图模式梁文锋黄仁勋何同学雷军Gemini 3.5 flashGPT 5.5Claude Sonnet 4.6DeepSeek 4.1Xiaokang Chen
3 分钟 · 4 卡片 · 9 资料
读原文 →

概念锚点

前置背景

平行视角

延伸追问