7.5
深览指数
科技微博·量子位··AI 生成

碰撞暴降45.5%、200km 0接管!港大团队:自动驾驶真正的突破在后训练

香港大学李弘扬团队联合华为、清华大学等机构发表论文《World Engine》,提出自动驾驶的后训练范式。核心观点是:自动驾驶的安全提升不能靠更大规模的预训练或被动数据采集,而应主动发现长尾失败场景、重建可交互的高保真世界,并通过受约束的强化学习进行策略更新。在华为ADS的闭环验证中,罕见切入场景碰撞率降低45.5%;实车200公里测试零接管。该工作将大模型的后训练路线系统性地迁移至自动驾驶领域,提供了从失败样本挖掘到策略更新的完整技术闭环。原文 ↗

核心观点
  • 自动驾驶真正的突破不在于更大的预训练规模,而在于后训练:通过主动发现长尾失败场景、重建高保真交互世界、并利用强化学习进行策略更新,才能系统性提升安全边界。
  • World Engine论文的核心贡献不是提出了新的仿真模块,而是将自动驾驶后训练的“学什么、在哪里学、怎么学”三个最困难的问题串联成一个可验证的闭环。
  1. 01在华为ADS的工业级闭环验证中,后训练模型在643个rare cut-in测试案例中,碰撞事件从167次降至91次,降幅达45.5%。
  2. 02实车验证中,后训练模型在上海市区完成约200km道路测试,覆盖白天/夜晚、晴天/雨天等多种条件,全程0接管。
  3. 03World Engine的三个核心组件:SimEngine(基于3DGS实现多趟日志重建与可控实时渲染)、Behaviour World Model(利用Diffusion模型泛化生成难例交互)、Reinforcement Post-training(采用behaviour-regularized RL,包含KL散度约束以避免灾难性遗忘)。
  4. 04后训练奖励函数覆盖安全性(碰撞规避、可行驶区域合规)、有效性(ego progress、time-to-collision margin)和舒适性(ride comfort)等多个目标。
  5. 05训练经验同时来自真实logged trajectories(维持通用驾驶能力)和World Engine生成的simulated rollouts(补充长尾难例),并通过hard experience mining优先筛选近碰撞、复杂博弈等高价值样本。
  6. 06世界模型生成过程中应用了LiDAR-guided exposure alignment和per-camera affine color transform,以解决不同相机间的曝光与色差问题。
反方 / 局限
  • 论文中的验证主要基于华为ADS的工业级闭环和上海城区的200km测试,尚未公布在更大规模城市路网、多天气多时段交叉的极端组合下的泛化表现。
  • Behaviour World Model依赖Diffusion模型生成未来轨迹,其本身在高动态、极稀疏场景下的生成质量与分布外泛化能力尚未在本文中得到充分讨论。
香港大学李弘扬团队华为ADS清华大学李升波教授团队上海创智学院World EngineSimEngineBehaviour World ModelPost-Training for Autonomous Driving3D Gaussian Splatting (3DGS)Diffusion模型DeepSeek R1OpenDriveLab
9 分钟 · 5 卡片 · 15 资料
读原文 →

前置背景

技术原理

平行视角

未来推演

延伸追问