7.1
深览指数
科技人人都是产品经理·糊研乱宇··AI 生成
拆解具身智能系统(软件)
本文深入剖析了机器人软件系统的架构与运转逻辑,指出其远比「硬件+AI」的组合复杂。文章以五次翻译(人话到电机命令)为骨架,详解了ROS2中间件、感知系统的哲学三问、任务规划中的快慢思考与三类期望,以及运动规划与全身控制(WBC/MPC)的协同。作者作为从业者,强调这是应对物理世界不确定性的闭环系统,并直指商业化、数据、VLA黑盒等尚未解决的挑战,适合想了解具身智能全栈技术架构的产品经理或技术决策者阅读。原文 ↗
核心观点
- ▍具身智能机器人的软件系统远非「硬件+AI」的简单组合,而是一套应对物理世界复杂性的闭环系统,其核心是将「人类意图」翻译成「安全、稳定、可执行的身体动作」。
- ▍机器人软件系统不是手机软件,其架构需应对物理世界的高风险(如200公斤机械臂卡顿可能造成事故),其核心是分布式协作、实时性与安全性的统一。
- 01系统全栈链路包含五次翻译:人话→任务→技能→轨迹→全身协调→电机命令,背后需要设备驱动、实时通信、时间同步、硬件抽象、安全守护五层指令支撑。
- 02ROS2作为关键中间件,通过去中心化的node/topic通信实现解耦(感知团队换模型不干扰导航)、系统观测、仿真连接与生命周期管理,但高频电机控制仍需专用实时控制器。
- 03感知系统需回答哲学三问:内部状态(关节角/位姿/接触)、外部环境(几何/语义/可供性)、任务状态。融合多传感器(编码器、IMU、相机)是关键,但每个传感器均不可靠。
- 04任务规划采用快思考(指令拆解)与慢思考(引入常识/VLM推理)的认知架构,输出三种期望:任务期望(调用技能包)、长时期望(全局路径)、瞬时期望(实时避障)。
- 05运动规划与全身控制(WBC)需在约束中生成可执行运动,WBC同时协调手、脚、腰、重心稳定性。MPC(模型预测控制)用于短期预判并规划最优动作,底层控制需关注柔顺控制(阻抗控制)以保证安全交互。
- 06配套工具链包括仿真环境(生成长尾场景)、SDK(封装元技能)、数据飞轮(真实数据回传->训练->OTA升级)。
反方 / 局限
- — 作者指出当前具身智能有大量未解问题:VLA的黑盒性、数据(真实/仿真/长尾)的获取与利用、商业化路径(卖本体 vs 软件订阅)、安全边界定义与泛化能力提升。
- — 作者承认ROS2并非万能,对于需要极稳定周期(如1ms)的高频电机控制,必须交由实时线程或专用运动控制器,ROS2主要负责上层集成与调试。
- — 文章末尾提出了几个反常识观点作为留白(如灵巧手三指足够、行动先于感知、非人形态机器人更好卖、周边产业价值可能超过本体厂商),暗示了一些可能与当前主流共识相悖的产业趋势。
20 分钟 · 3 卡片 · 9 资料
读原文 →