5.2
深览指数
产品腾讯新闻·第一新声··AI 生成

刚刚,豆包大模型2.1发布,Coding能力进入国际第一梯队!

火山引擎发布豆包大模型2.1 Pro,强调其Coding、Agent和VLM能力已跨越“生产级质变点”,可胜任真实世界复杂任务。文章通过芯片设计RTL代码生成、500个Agent协同搭建虚拟城市、2小时长视频端到端剪辑三个实测案例,论证其已经具备交付能力,并介绍了Pro/Turbo/Evolving三版产品矩阵及金山办公、得到、Unity中国等企业内测反馈。文章认为行业竞争规则正在从参数竞赛转向用户、场景和Token消耗量之争。原文 ↗

核心观点
  • 豆包大模型2.1 Pro在编程、Agent、多模态方面已跨越“生产级质变点”,能胜任真实世界中芯片设计、大规模Agent协作、长视频剪辑等复杂任务,而非仅停留在参数竞赛和榜单刷分阶段。
  1. 01豆包大模型日均Token使用量突破180万亿,两年间从1200亿增长1500倍,且无放缓迹象。
  2. 02豆包2.1 Pro在Terminal Bench 2.1、SWE-Pro、SciCode等代码评测中进入第一梯队;在OSWorld、MobileWorld、MMMU-Pro等Agent与多模态评测中也位居全球前列。
  3. 03实测案例一:豆包2.1 Pro连续运行18小时、经历9轮迭代,完成了6个核心模块、1300多行RTL芯片设计代码,通过了仿真测试和手写数字识别验证。
  4. 04实测案例二:依托豆包2.1 Pro,500余个智能Agent同步协作,调用11种工具,触发了上千次工具调用,生成了100多栋造型材质各异的建筑,构成3D虚拟城市。
  5. 05实测案例三:豆包2.1 Pro全自动将一个2小时以上的长视频剪辑成带字幕的成片,串联了多模态理解、长程记忆、时序推理和工具调用。
  6. 06产品矩阵分为Pro版(旗舰深度思考,6元/百万tokens)、Turbo版(效果比肩Pro,价格减半)、Evolving版(每周至少更新一版)。
  7. 07金山办公、得到、Unity中国等企业的内测反馈均为正面,覆盖办公效率、AI助手、游戏开发等不同场景。
  8. 08扣子和扣子编程已全量接入豆包大模型2.1,形成从模型到平台到应用的完整生态闭环。
反方 / 局限
  • 文章未提及任何模型在特定场景下的失败案例、局限性、与已有开源模型的成本比较,也未涉及对编码类模型常见幻觉或安全问题的讨论。
7 分钟 · 5 卡片 · 15 资料
读原文 →

概念锚点

前置背景

平行视角

未来推演

延伸追问