3月16日,在上汽大众的ID.ERA技术发布会上,MomentaCEO曹旭东正式宣布:Momenta R7强化学习世界模型即将推出,并将全球首发搭载于上汽大众全新旗舰SUV ID.ERA9X。当被问及与特斯拉FSD的对比时,曹旭东直言:“毫不逊色。”他认为,双方都以第一性原理进行底层创新,而Momenta在部分技术节点上甚至领先。“我们跟特斯拉一样,都希望通过不断创新,给世界带来最伟大的产品。

“世界模型战队”再添一员大将。
3月16日,在上汽大众的ID.ERA技术发布会上,MomentaCEO曹旭东正式宣布:Momenta R7强化学习世界模型即将推出,并将全球首发搭载于上汽大众全新旗舰SUV ID.ERA9X。
全新的Momenta R7强化学习世界模型,通过在强化学习的基础上引入世界模型,构建起对物理世界的理解能力,即——理解物体的物理属性、理解运动的因果关系,以及理解交互的潜在可能。
01
R7,让AI在试错中自我进化
对于R7强化学习世界模型,在ID.ERA技术发布会上,曹旭东透露的并不多。目前从已经透露的信息上看,R7的核心突破在于将强化学习与世界模型相结合。
对比上一代基于模仿学习的方案,强化学习的特点在于模型是通过“试错”完成自我进化——成功获得正反馈,失败接受惩罚,从而在反复博弈中优化决策策略。而世界模型的引入,则让AI开始基于更完整的物理信息做出预测和规划。

曹旭东给出的数据显示,在大规模泛化测试中,包括行人、电动车、车辆加塞和避让场景内,强化学习大模型在关键安全性指标上相比模仿学习提升了5倍以上,在行人及非机动车、车辆加塞等核心场景安全体验均实现显著跃升。

曹旭东表示,AI正是在各种正负反馈中不断地成长,最后在安全、效率、舒适等多个维度中取得了超越人类的表现。因为它学会了在复杂中找到最优解,而不是从在模仿中去找平衡。
在曹旭东看来,想要让大模型在安全安心上的表现有机会大幅超越人类,需要让它建立起与人类类似的,对物理世界的认知框架。他将这种认知能力归纳为三个层次:理解物体的物理属性(如区分飘起的塑料袋与滚落的轮胎)、理解运动的因果关系(如前车打转向灯可能因前方有障碍)、理解交互的潜在可能(预判行人或车辆的动作空间)。
“现在智能辅助驾驶已经进入了指数级的发展阶段,过去智驾摩尔定理是每两年体验提升10倍,而今天头部玩家正在做到每年提升10倍,而R7强化学习世界模型的到来,更进一步加速这一进程。”曹旭东说道。
当被问及与特斯拉FSD的对比时,曹旭东直言:“毫不逊色。”他认为,双方都以第一性原理进行底层创新,而Momenta在部分技术节点上甚至领先。“我们跟特斯拉一样,都希望通过不断创新,给世界带来最伟大的产品。”
02
为何选择世界模型而不是VLA?
随着自动驾驶技术发展,其车端实现路径也呈现出两种趋势:一边是以理想、小鹏为主导的VLA(视觉—语言—行动)模型路线;另一边则是以华为、蔚来为代表的世界模型(WorldModel)路线,从技术路线上看,Momenta坚定地选择了后者。
对此,在会后的采访中曹旭东从直觉和技术两个角度给出了解释。
从直觉上来说,曹旭东认为虽然当下的LLM能力多元,能写代码、作诗歌、解数学题,但这些能力对于驾驶本身而言帮助甚微。这就像人类司机想要把车开好,并不需要掌握写代码、解数学题的技能,核心只需要能理解物理世界的规律,在各类复杂场景中及时做出反应,并做出安全的预判即可。而世界模型恰好具备这样的核心能力,它能够学习物理规律,并且可以通过强化学习收集到大量的长尾场景,在反复训练中锻炼出驾驶的“肌肉记忆”。
而从技术角度来看,曹旭东认为VLA的训练侧重点与自动驾驶的实际需求存在明显偏差。VLA的训练起源于LLM,其底座模型的参数量一般在100B左右,后续会先完成视觉和语言的对齐,再用行动去和视觉-语言组合对齐。
这也就意味着,在VLA的整个训练过程中,语义的优先级远高于驾驶本身,大量的模型参数并未真正服务于驾驶核心任务,陷入了“好钢没用在刀刃上”的困境。对此曹旭东总结道:“VLA对自动驾驶是锦上添花,很难雪中送炭。”

VLA和世界模型的选择,主要是智能驾驶软件算法层面的技术争议,而在底层硬件领域,行业一直存在纯视觉和多传感器冗余(激光雷达)的争论。
对此,曹旭东认为,传感器选型在智驾技术的核心要素中,重要性仅能排在第三位,而排在前两位的,是算法架构、数据和研发体系能力。
其中数据是AI迭代的基石,无需多言。在曹旭东看来,在算法架构层面,单一算法本身的技术壁垒其实很低,更重要的是架构的搭建能力,也就是将众多算法整合形成合力,并通过长期积累形成的体系化能力。而在算法架构之上的,是研发体系能力,这种能力要像神经网络一样具备反向传播的特性,能够精准识别到用户的高价值任务,并将其快速传递给产品和研发团队,让团队清晰知晓哪些工作的产出价值最高,进而在方案选型时,选出能最快提升用户体验的方向。
曹旭东还透露,数据、架构和研发体系能力,是Momenta内部划定为第一梯队的核心重要事项,而紧随其后的第二梯队则是芯片算力,因为芯片算力直接决定了智驾模型能力的上限。在这些核心要素之后,传感器才位列第三梯队。曹旭东认为,即便智驾系统只用纯视觉方案,仅依靠摄像头作为传感器,相比人类的双眼也已经是“超配”状态。因为人类双眼无法实现360°环视,而摄像头的感知覆盖程度已经足够全面,具备充足的冗余性。
当然,这并不意味着传感器毫无价值,传感器自然是越多越好,但曹旭东强调,随着数据积累、算法架构优化和研发体系能力的不断提升,单纯堆砌传感器数量、盲目增加激光雷达的边际效应会持续减弱。





评论: