6.9
深览指数
科技微博·量子位··AI 生成

AI当老板,快给10家公司干破产了…

普林斯顿大学CEO-Bench实验让14个AI模型模拟经营SaaS公司500天,结果仅3个LLM盈利,5个破产。一个纯规则算法竟赚了1576万美元,超过多数顶级模型。实验揭示了关键洞察:在长周期、高不确定性的经营决策中,AI的“探索”策略优于“保守”策略;同时,通用AI Agent框架(如编程Agent)并不适配商业场景,垂直定制化才是未来方向。文章适合关心AI应用边界、Agent产品化及AI与人类决策差异的读者。原文 ↗

核心观点
  • 在模拟经营中,AI模型普遍表现不佳,仅有3个LLM能盈利,且纯规则算法的表现超过了多数模型,说明当前AI处理长周期、高不确定性商业决策的能力远未成熟。
  • 通用AI编程Agent框架(如Codex)并不能直接复用于商业管理,垂直场景的深度适配是Agent落地的关键。
  1. 01CEO-Bench实验:14个AI模型各自运营一家虚拟SaaS初创企业,初始资金100万美元,目标是在500天内最大化利润。
  2. 02最终结果:仅Claude Fable 5(盈利4715万美元)、Claude Opus 4.8(2780万)、GPT-5.5(2130万)实现正收益,GLM 5.1、DeepSeek V4 Pro等5个模型中途破产。
  3. 03一个纯规则的启发式算法(固定定价、固定配额)赚了1576万美元,超过了所有其他未盈利的LLM。
  4. 04核心发现1:探索策略优于保守策略。盈利的模型(GPT-5.5, Opus 4.8)会不断尝试新策略,而保守的Claude Opus 4.7通过削减成本虽能“存活”,但无法盈利。
  5. 05论文提炼了四项关键能力:发现隐藏信息、预测未来现金流、快速适应变化、提前规划。盈利模型在这四项上均高于平均水平。
  6. 06核心发现2:通用编程Agent(如Claude Code, Codex)在CEO角色上表现反而不佳,原因在于系统提示词是为软件开发优化,而非商业管理。
反方 / 局限
  • 实验中的“商业模拟”环境(Python API, 34个工具, 19张表)可能简化了现实商业的复杂性,真实世界的随机性和人性因素(如谈判、情绪)未被充分模拟。
  • 文章强调人类CEO的“直觉”(如乔布斯画矩阵)是当前AI无法复制的,但并未论证这种“直觉”是否可以被更好的算法或更大模型模拟。
  • 冠军Fable 5是闭源模型,其具体实现细节未知,实验结果的可复现性存疑。
6 分钟 · 4 卡片 · 12 资料
读原文 →

前置背景

平行视角

未来推演

延伸追问