从Prompt到World Model：大厂RL后训练工程师眼中的AI工程六层演化

7.5

深览指数

科技人人都是产品经理·AI搭子木木·4小时前·AI 生成

从Prompt到World Model：大厂RL后训练工程师眼中的AI工程六层演化

这篇文章从一个在大厂从事强化学习（RL）后训练工程师的视角，将AI工程演化划分为Prompt、Context、Harness、Loop、Agent、World Model六个层次。核心洞见是，后训练的数据来源和对象发生了质变：从训练模型给出好答案，到训练模型在特定状态下的好答案，再到训练动作选择、奖励信号生产、长程行为轨迹，最终到设计模型学习的环境。作者认为未来稀缺的是能将现实世界转译成可训练奖励信号的系统设计能力。适合对AI技术栈演进、LLM训练机制、RL应用有基础认知的读者，能获得一个清晰的演化框架而非零散的技术点。原文 ↗原文 ↗

核心观点

▍AI工程近几年的核心变化是后训练的数据来源和训练对象发生了质变，从训练单个回答逐步演变为设计让模型持续学习的环境。
▍从Prompt到World Model的六层演化，本质上是RL后训练对象从'response'到'state-conditioned response'、'action'、'reward signal'、'trajectory'，最终到'training environment'的迁移。

01Prompt Engineering阶段，后训练对象是'response'，通过InstructGPT和RLHF证明了模型需要更符合人的意图，但缺陷是模型不知道为何被拒绝，只能判断最终结果好坏。
02Context Engineering阶段，后训练对象变为'state-conditioned response'，context本质是RL中的'state'，包含品牌规范、目标渠道、历史反馈等，状态不完整或太脏会导致策略不稳定。
03Harness Engineering阶段，后训练对象变为'action'，工具链（如function calling、ComfyUI）是模型的action space，模型需要选择'下一步做什么'，而不仅仅是生成结果。
04Loop Engineering阶段，后训练的核心是构建feedback-to-reward的加工链路，将用户口语化、脏、延迟的反馈转化为可训练的奖励信号，这是RLHF、DPO等方法成为主线的背景。
05Agent Engineering阶段，后训练对象变为长程的'trajectory'，核心挑战是credit assignment，即定位到整个决策链中哪一步导致了成功或失败。
06World Model Engineering阶段，本质是'训练场建设'，即设计一个足够真实、可控、可评估的学习环境，包括任务生成器、评估器、难例自动生成等。OpenAI o1和DeepSeek-R1证明了大规模RL可以提升推理能力。

反方 / 局限

— 文章主要从RL后训练的单一视角出发，对语言和图像生成模型有较好解释力，但未讨论其他技术路线（如基于搜索的推理、逻辑规则系统），也未提及这一框架在物理世界具身智能或自动驾驶等更复杂场景中的适用性边界。
— 作者隐含的前提假设是'RL后训练是AI能力提升的核心范式'，但这忽略了预训练阶段、架构创新（如Mamba、稀疏MoE）以及纯前馈推理等方式可能带来的价值，该假设本身并非该领域共识。

RLHFInstructGPTPrompt EngineeringContext EngineeringHarness EngineeringLoop EngineeringAgent EngineeringWorld Model EngineeringRL后训练OpenAIDeepSeekStable DiffusionChatGPTOpenAI o1DeepSeek-R1DALL-E 3ComfyUIDPORLAIFcredit assignment

14 分钟 · 1 卡片 · 3 资料

读原文 →

从Prompt到World Model：大厂RL后训练工程师眼中的AI工程六层演化

前置背景