曹旭东：Momenta R7强化学习世界模型相比FSD毫不逊色

26-03-17 11:52:02 王凌方赛博汽车

3月16日，在上汽大众的ID.ERA技术发布会上，MomentaCEO曹旭东正式宣布：Momenta R7强化学习世界模型即将推出，并将全球首发搭载于上汽大众全新旗舰SUV ID.ERA9X。当被问及与特斯拉FSD的对比时，曹旭东直言：“毫不逊色。”他认为，双方都以第一性原理进行底层创新，而Momenta在部分技术节点上甚至领先。“我们跟特斯拉一样，都希望通过不断创新，给世界带来最伟大的产品。

图片 1.png

“世界模型战队”再添一员大将。

3月16日，在上汽大众的ID.ERA技术发布会上，MomentaCEO曹旭东正式宣布：Momenta R7强化学习世界模型即将推出，并将全球首发搭载于上汽大众全新旗舰SUV ID.ERA9X。

全新的Momenta R7强化学习世界模型，通过在强化学习的基础上引入世界模型，构建起对物理世界的理解能力，即——理解物体的物理属性、理解运动的因果关系，以及理解交互的潜在可能。

R7，让AI在试错中自我进化

对于R7强化学习世界模型，在ID.ERA技术发布会上，曹旭东透露的并不多。目前从已经透露的信息上看，R7的核心突破在于将强化学习与世界模型相结合。

对比上一代基于模仿学习的方案，强化学习的特点在于模型是通过“试错”完成自我进化——成功获得正反馈，失败接受惩罚，从而在反复博弈中优化决策策略。而世界模型的引入，则让AI开始基于更完整的物理信息做出预测和规划。

图片 2.png

曹旭东给出的数据显示，在大规模泛化测试中，包括行人、电动车、车辆加塞和避让场景内，强化学习大模型在关键安全性指标上相比模仿学习提升了5倍以上，在行人及非机动车、车辆加塞等核心场景安全体验均实现显著跃升。

图片 3.png

曹旭东表示，AI正是在各种正负反馈中不断地成长，最后在安全、效率、舒适等多个维度中取得了超越人类的表现。因为它学会了在复杂中找到最优解，而不是从在模仿中去找平衡。

在曹旭东看来，想要让大模型在安全安心上的表现有机会大幅超越人类，需要让它建立起与人类类似的，对物理世界的认知框架。他将这种认知能力归纳为三个层次：理解物体的物理属性（如区分飘起的塑料袋与滚落的轮胎）、理解运动的因果关系（如前车打转向灯可能因前方有障碍）、理解交互的潜在可能（预判行人或车辆的动作空间）。

“现在智能辅助驾驶已经进入了指数级的发展阶段，过去智驾摩尔定理是每两年体验提升10倍，而今天头部玩家正在做到每年提升10倍，而R7强化学习世界模型的到来，更进一步加速这一进程。”曹旭东说道。

当被问及与特斯拉FSD的对比时，曹旭东直言：“毫不逊色。”他认为，双方都以第一性原理进行底层创新，而Momenta在部分技术节点上甚至领先。“我们跟特斯拉一样，都希望通过不断创新，给世界带来最伟大的产品。”

为何选择世界模型而不是VLA？

随着自动驾驶技术发展，其车端实现路径也呈现出两种趋势：一边是以理想、小鹏为主导的VLA（视觉—语言—行动）模型路线；另一边则是以华为、蔚来为代表的世界模型（WorldModel）路线，从技术路线上看，Momenta坚定地选择了后者。

对此，在会后的采访中曹旭东从直觉和技术两个角度给出了解释。

从直觉上来说，曹旭东认为虽然当下的LLM能力多元，能写代码、作诗歌、解数学题，但这些能力对于驾驶本身而言帮助甚微。这就像人类司机想要把车开好，并不需要掌握写代码、解数学题的技能，核心只需要能理解物理世界的规律，在各类复杂场景中及时做出反应，并做出安全的预判即可。而世界模型恰好具备这样的核心能力，它能够学习物理规律，并且可以通过强化学习收集到大量的长尾场景，在反复训练中锻炼出驾驶的“肌肉记忆”。

而从技术角度来看，曹旭东认为VLA的训练侧重点与自动驾驶的实际需求存在明显偏差。VLA的训练起源于LLM，其底座模型的参数量一般在100B左右，后续会先完成视觉和语言的对齐，再用行动去和视觉-语言组合对齐。

这也就意味着，在VLA的整个训练过程中，语义的优先级远高于驾驶本身，大量的模型参数并未真正服务于驾驶核心任务，陷入了“好钢没用在刀刃上”的困境。对此曹旭东总结道：“VLA对自动驾驶是锦上添花，很难雪中送炭。”

图片 4.png

VLA和世界模型的选择，主要是智能驾驶软件算法层面的技术争议，而在底层硬件领域，行业一直存在纯视觉和多传感器冗余（激光雷达）的争论。

对此，曹旭东认为，传感器选型在智驾技术的核心要素中，重要性仅能排在第三位，而排在前两位的，是算法架构、数据和研发体系能力。

其中数据是AI迭代的基石，无需多言。在曹旭东看来，在算法架构层面，单一算法本身的技术壁垒其实很低，更重要的是架构的搭建能力，也就是将众多算法整合形成合力，并通过长期积累形成的体系化能力。而在算法架构之上的，是研发体系能力，这种能力要像神经网络一样具备反向传播的特性，能够精准识别到用户的高价值任务，并将其快速传递给产品和研发团队，让团队清晰知晓哪些工作的产出价值最高，进而在方案选型时，选出能最快提升用户体验的方向。

曹旭东还透露，数据、架构和研发体系能力，是Momenta内部划定为第一梯队的核心重要事项，而紧随其后的第二梯队则是芯片算力，因为芯片算力直接决定了智驾模型能力的上限。在这些核心要素之后，传感器才位列第三梯队。曹旭东认为，即便智驾系统只用纯视觉方案，仅依靠摄像头作为传感器，相比人类的双眼也已经是“超配”状态。因为人类双眼无法实现360°环视，而摄像头的感知覆盖程度已经足够全面，具备充足的冗余性。

当然，这并不意味着传感器毫无价值，传感器自然是越多越好，但曹旭东强调，随着数据积累、算法架构优化和研发体系能力的不断提升，单纯堆砌传感器数量、盲目增加激光雷达的边际效应会持续减弱。

Momenta R7 曹旭东

评论：