AI当老板，快给10家公司干破产了…

6.9

深览指数

科技微博·量子位·4小时前·AI 生成

AI当老板，快给10家公司干破产了…

普林斯顿大学CEO-Bench实验让14个AI模型模拟经营SaaS公司500天，结果仅3个LLM盈利，5个破产。一个纯规则算法竟赚了1576万美元，超过多数顶级模型。实验揭示了关键洞察：在长周期、高不确定性的经营决策中，AI的“探索”策略优于“保守”策略；同时，通用AI Agent框架（如编程Agent）并不适配商业场景，垂直定制化才是未来方向。文章适合关心AI应用边界、Agent产品化及AI与人类决策差异的读者。原文 ↗原文 ↗

核心观点

▍在模拟经营中，AI模型普遍表现不佳，仅有3个LLM能盈利，且纯规则算法的表现超过了多数模型，说明当前AI处理长周期、高不确定性商业决策的能力远未成熟。
▍通用AI编程Agent框架（如Codex）并不能直接复用于商业管理，垂直场景的深度适配是Agent落地的关键。

01CEO-Bench实验：14个AI模型各自运营一家虚拟SaaS初创企业，初始资金100万美元，目标是在500天内最大化利润。
02最终结果：仅Claude Fable 5（盈利4715万美元）、Claude Opus 4.8（2780万）、GPT-5.5（2130万）实现正收益，GLM 5.1、DeepSeek V4 Pro等5个模型中途破产。
03一个纯规则的启发式算法（固定定价、固定配额）赚了1576万美元，超过了所有其他未盈利的LLM。
04核心发现1：探索策略优于保守策略。盈利的模型（GPT-5.5, Opus 4.8）会不断尝试新策略，而保守的Claude Opus 4.7通过削减成本虽能“存活”，但无法盈利。
05论文提炼了四项关键能力：发现隐藏信息、预测未来现金流、快速适应变化、提前规划。盈利模型在这四项上均高于平均水平。
06核心发现2：通用编程Agent（如Claude Code, Codex）在CEO角色上表现反而不佳，原因在于系统提示词是为软件开发优化，而非商业管理。

反方 / 局限

— 实验中的“商业模拟”环境（Python API, 34个工具, 19张表）可能简化了现实商业的复杂性，真实世界的随机性和人性因素（如谈判、情绪）未被充分模拟。
— 文章强调人类CEO的“直觉”（如乔布斯画矩阵）是当前AI无法复制的，但并未论证这种“直觉”是否可以被更好的算法或更大模型模拟。
— 冠军Fable 5是闭源模型，其具体实现细节未知，实验结果的可复现性存疑。

CEO-Bench 普林斯顿大学 Claude Fable 5 Claude Opus 4.8 GPT-5.5 GLM 5.1 DeepSeek V4 Pro 乔布斯 2x2矩阵黄仁勋 Ilya Sutskever

6 分钟 · 4 卡片 · 12 资料

读原文 →

AI当老板，快给10家公司干破产了…

前置背景

平行视角

未来推演

延伸追问