首页 自动驾驶 正文
从智驾到智舱,商汤绝影用生成式AI给汽车升级“大脑”
25-04-25 12:42:39 章涟漪 赛博汽车

4月23日,商汤绝影对外展示了系列生成式AI汽车产品。智驾领域包括生成式智驾R-UniAD技术方案、近实时在线交互的4D世界模型“绝影开悟2.0”;智舱领域包括专为车载AIOS打造的AI内核“绝影千机”,以及全新升级的“家庭新成员”等。 作为一家以相对“轻量化”的人工智能起家的企业,商汤即将要在强“制造”的汽车智能化领域再次证明自己。

图片 1.png

如何用AI打造“有趣的灵魂”?商汤绝影从智舱到智驾,全方位给出了自己的答案。

4月23日,2025上海车展上,商汤绝影对外展示了系列生成式AI汽车产品。其中,智驾领域包括生成式智驾R-UniAD技术方案、近实时在线交互的4D世界模型“绝影开悟2.0”;智舱领域包括专为车载AIOS打造的AI内核“绝影千机”,以及全新升级的“家庭新成员”等。

在商汤绝影CEO王晓刚看来,智能汽车的范式演进经历了三个阶段。

图片 2.png

第一个阶段为完成点对点特定任务的工具;第二个阶段伴随着大模型的加持,逐渐变成了人类的助手,可以完成各种通用的任务;第三个阶段开始可以提供主动的服务和情感的陪伴,成为家庭的新成员。

他希望,可以让每一台车都拥有有趣的灵魂。

从2021年商汤绝影首次以独立品牌亮相,到如今系列生成式AI产品的发布。近4年时间,商汤绝影完成了在汽车领域全产品谱系的布局。下一步,在持续落地智能座舱的同时,它也将全力推进辅助驾驶方案的量产交付。

作为一家以相对“轻量化”的人工智能起家的企业,商汤即将要在强“制造”的汽车智能化领域再次证明自己。

01

智驾进入生成式阶段,加速量产落地

与智能汽车的发展历程一样,王晓刚认为,智驾演进也经历了三个阶段:规则式智驾、端到端智驾和生成式智驾。

图片 3.png

“现在这个阶段是端到端数据驱动的方式。”在采访环节,王晓刚称,这种方式有自己的问题。

一是它对于数据量和质量的依赖。由于它是直接根据输入的图像视频去推测车辆行驶轨迹,是模仿人类驾驶的行为,但人类在面对比较困境场景时,90%的驾驶行为是不太好的,因此只有10%、甚至1%高水平的数据,需要大量数据学习,对数据深度依赖。

二是端到端自动驾驶具有不确定性。一些问题场景没办法复现,它的解决方式是通过采集大量类似的其他场景重新训练模型。模型更新后,之前所关心的特定场景能否被解决,是不一定,甚至存在已解决场景回退的现象。

如今,伴随着对自动驾驶安全性、确定性要求更高,更加依赖于云端的模拟仿真,包括大模型。

因此,王晓刚表示,下一个阶段智能驾驶进入到生成式阶段,其中很重要的技术是世界模型。它能够非常准确的重建,并且模拟泛化现实物理世界,在重构世界里去确定性的解决需要解决的问题。同时,还能基于该场景进行泛化,生成出很多类似问题的场景。

“这些场景,无论是采集成本,还是危险性都非常高。”王晓刚称,强化学习加上世界模型,能够突破人类驾驶行为的上限。

正是出于这样的思考,去年11月,商汤绝影发布了“开悟”世界模型。

今年以来,受到deepseek的启发,商汤绝影把世界模型从1.0升级到2.0,同时也跟强化学习进行了结合,发布了生成式智驾R-UniAD技术方案。在王晓刚看来,“未来一定是在云端的研发比重越来越重。”

图片 4.png

本届上海车展上,商汤绝影全面展示了R-UniAD技术方案,基于世界模型和强化学习两大核心技术,构建集“视觉-语言-行动-强化学习”于一体的VLAR技术架构。

王晓刚以“施工占道场景”为例,讲述了VLAR技术架构是如何处理这一问题的。

首先,以“施工占道刹停”路测视频作为输入,R-UniAD基于“绝影开悟”世界进行模型4D仿真复现,然后端到端模型生成该场景下各种可能驾驶策略,并与世界模型生成的环境交互,反复强化学习中找到最优路径,能预判施工占道,变道绕行。经过泛化训练后,遇到类似场景,端到端模型也能及时变道,并显著提升对此类施工场景的泛化交互能力。

王晓刚指出,生成式R-UniAD突破了现阶段端到端范式下数据、安全和性能的三大瓶颈,将实采场景数据的需求降低两个数量级;同时,基于强化学习算法,模型充分探索多元场景的安全边界;最终,R-UniAD将能够实现远超人类的驾驶能力。

至于世界模型,则是生成式智驾的基石所在。如果说R-UniAD是“AI驾驶员”,那么这个世界模型就是它的“驾校”。

相比1.0版本主要聚焦2D视频生成技术的打磨,2.0版本则进化为近实时在线交互的4D世界模型,能够实现“4D空间自由交互”。

图片 5.png

“绝影开悟2.0”具备三大能力,首先是“面向量产的数据生成”,它具有多样性场景的可控生成的能力,能一键生成极端高风险场景;其次能实现“复杂场景自由复现”,可以根据不同的需求,修改和调整场景中的各种要素;最后具备近实时交互能力,比行业SOTA提升5倍之多,让仿真训练过程更加高效和逼真,同时感知结果接近真实精标数据98%。

有了世界模型和云端训练之后,对于车端的算力要求依然有需求。

在王晓刚看来,类似deepseek的一些技术路线的出现,可以通过MOE架构,减少一系列工程化,在同等规模的参数规模情况下降低对算力的依赖。“但永远都是当算力越大的时候,它能够应对场景复杂程度能力越强,这个趋势是确定的,所以算力的要求和模型的能力还是有一个正比的关系。”

技术不断升级的同时,商汤绝影也在加速推进智驾落地。王晓刚表示,厚积薄发,绝影要全力推进辅助驾驶方案的量产交付。

在辅助驾驶领域,商汤绝影主要有三套方案,基于地平线J6E打造的AD Pro行泊一体方案;基于地平线J6M打造的AD Max城区领航;基于英伟达Orin/地平线J6P打造的端到端智驾方案。

图片 6.png

截至目前,其量产方案已合作中国一汽、广汽集团、奇瑞汽车和东风汽车4家车企,上车7款车型。

发布会上,王晓刚宣布,在英伟达DIRVE AGX Thor平台部署的绝影UniAD一段式端到端量产方案将于2025年第四季度量产交付东风汽车。

除了端到端,东风汽车还将与绝影在开悟世界模型、DriveAGI等方面展开深度合作。

未来,商汤绝影在智驾领域量产将会不断提速,并加速新技术的落地。“我们在与车企合作过程中,也在帮助提升他们的L3解决方案。”王晓刚如是说。

02

智舱“有趣升级”,发布全新AI内核

与智驾后来者身份,寻求“厚积薄发”不同,智能座舱一直是商汤的强项,其座舱AI软件市场份额已连续5年位列行业第一。

截至2024年底,商汤绝影已与超30家国内外车企达成合作,覆盖130余款车型,量产交付累计突破360万辆,其中多数为座舱领域。

商汤绝影在智能座舱领域主打的是“有趣灵魂”。

去年“绝影日”期间,商汤绝影发布了“A New Member For U”(你的家庭新成员),其三大特点是察言观色,无时不在,心有灵犀,背后的技术支撑是原生流式多模态的大模型。

今年上海车展上,商汤绝影又对其进行了升级,背后融入了“DeepSeek”的思路。

实际上,自DeepSeek“火了”后,很多车企将其接入座舱之中。对此,王晓刚表示,如果只是非常简单的把DeepSeek连接到座舱里面,其实是不适合的,因为其设计并不是为了座舱的交互环境,需要在车舱进行优化。

当然,他也认为,DeepSeek加入后的想象空间。他表示,同样的算力,通过MOE的架构,可以去部署更大的模型,这些模型可以节省带宽、节省算力,带来更好的体验,这也是商汤绝影研发的方向。

图片 7.png

“我们是把DeepSeek中核心技术用到了SenseAuto-chat模型里,进行了升级。同时,结合多模态的模型,实现了深度推理。”王晓刚指出,新的“New Member”则是基于此打造,带来了三大核心功能。

首先是拥有了多模态识人能力,不需要用户专门进行注册,它在座舱多人交互的过程推测出每个人的名字,与相貌的结合,人物之间的关系,并在与用户长期互动过程当中,记住生活的点滴,产生共情,从而更贴心地进行互动。

其实是具备深度思考的能力。当用户提出需求时,它会结合记忆与场景,主动分析疲惫情绪、家庭需求甚至天气变化进行综合性的深度思考,然后给出最合适的方案。

最后,是免唤醒的多人多轮对话能力。之前行业做到的是大模型一对一的交流,如今New Member未被唤醒也能关注并理解座舱内成员间的对话,并能随时参与到对话当中,做到“不过度打扰,但时刻陪伴”。

图片 8.png

有趣灵魂背后,需要强大技术底座支撑。为此,商汤绝影打造了类人情感的AI内核,即专为车载AIOS打造的AI内核“绝影千机”。

王晓刚表示,该产品最核心的三大技术包括MOE多模态大模型、类人记忆框架以及原生智能体框架。同时,AI基础系统模块、AIOS工具链和生成式UI等外围技术,为三大核心模块提供支持与交互。

“现有的这些操作系统,包括车企的,覆盖范围比较广。”王晓刚称,商汤绝影的“千机”更关注AI相关的大模型,这些也是商汤的强项。未来,绝影将把这些AI内核和主机厂操作系统结合在一起,形成AI的操作系统,推动智能座舱向更加高级的智能体进化。

王晓刚还强调,依托于“日日新SenseNova V6”基模型,商汤绝影构建了覆盖0.1B至70B汽车垂类模型矩阵,模型首字延迟小于300ms,吐字速度高达47 Tokens/s,性能超越DeepSeek,还能在快慢思考之间自如切换,以满足各种场景需求。

图片 9.png

同时,具备类人情感的座舱系统,离不开记忆。商汤绝影构建了业内首个端侧类人记忆框架,赋予AIOS真正的认知力与成长性,每一次交互都让它更懂用户。

为了便于打造智能体生态,商汤绝影还构建了业内首个支持MCP协议的端侧原生智能体框架。它具备自主规划能力,可进行多步的精准规划和执行。它支持MCP规范,能快速接入各类生态服务和工具能力,目前已集成100+智能体与1000+API。这个框架还支持多智能体协调机制,能够实现并发、串行及混合模式下的高效协同,整体性能提升超过30%。

此外,基于语言大模型、多模态大模型、文生图大模型和“大医”医疗大模型等组成的AI大模型体系,商汤绝影构建了健康管家、安全卫士、3D交互等AI座舱创新产品矩阵。不断升级智能座舱相关产品。

智驾落地加速、智舱不断创新。在AI与汽车深度融合的新时代,商汤绝影在智能汽车领域的探索还在不断深入。


评论: