地平线：用端到端打开通往自动驾驶终局的大门

24-04-23 11:39:48 朱世耘赛博汽车

“如何实现自动驾驶？目前除了端到端，我想不到其它的技术。”地平线副总裁余轶南表示：“地平线做端到端是刚需。我们和特斯拉走的（技术）路线是一样的，落地端到端的方案大概晚一年。”

图片 1.png

“我们是一个披着芯片外衣的软件算法公司。”地平线创始人兼CEO余凯曾在采访中这样解读地平线的优势打法：“在变化中抓确定性，全局是以一打十，局部是以十打一。”

如何“局部十打一”？

去年，地平线作为第一作者提出的Unified Autonomous Driving(UniAD)，首次为自动驾驶端到端通用网络架构的设想给出了具体范式，并一举荣获CVPR 2023最佳论文。今年年初，地平线又开源了稀疏化端到端自动驾驶感知算法——Sparse4D系列。

但Sparse4D并不仅仅是范式，其还将是地平线征程5、征程6芯片之上的算法样板间之一。

换而言之，当其他人还在讨论时，地平线已经要开始做端到端的生意，赚端到端的“钱”了。

以十打一的“武器”

“如果论及如何实现自动驾驶，目前除了端到端，我想不到其它的技术。”地平线副总裁兼软件平台产品线总裁余轶南博士向《赛博汽车》表示：“地平线和特斯拉走的（技术）路线是一样的，落地端到端的方案大概晚一年。”

图片 2.png

地平线副总裁兼软件平台产品线总裁余轶南

3月下旬，特斯拉在一周之内连续发布了“完全由神经网络组成”的端到端FSD系统V12.3.1和V12.3.3两个版本。此前，一周一版已经是业内“卷王”级别的发版速度。效果上，Tesla FSD Tracker（FSD用户主动上传）的数据显示，FSD V11的无接管行驶里程为100英里左右，而V12.3已经达到368.7英里，622.33公里。

3月26日，马斯克在X上表示：“本周开始，全美所有适用车辆将能免费试用FSD一个月”。4月13日，特斯拉宣布调整海外FSD月度订阅费价格由199美元降低至99美元。

做近十年FSD，特斯拉为什么突然变得非常之快？

“端到端（和现有系统）的核心区别在于解决一个问题时，使用写代码的方式，还是数据和模型的方式。”余轶南表示。

图片 3.png

传统感知系统和端到端感知系统的对比

业内有一句话，“有多少人工，就有多少智能”。底层原因在于，通过代码解决问题时，首先需要人类工程师研究所有的场景数据，定位真问题之后，写代码解决。研发效率上，需要1-5个工程师一周的时间去解决几个问题。人类工程师的人效，决定着系统的智能程度。

神经网络的“智商”则取决于模型、数据和算力三者之间协同效应的大小，主要通过构建算力，采集、挖掘、补充数据，训练迭代来提高其智能程度。只要算力充足，一天即可“消化”数十，甚至数百倍人效的工作。

“端到端之后，研发的需求就从分析、拆解问题，变为搞数据去训练模型，然后评估。解决问题的规模、效率和泛化能力是完全不一样了。”余轶南表示，

“过去的瓶颈不在于有多少车（采集、提供数据），而在于有多少人去分析这些问题。现在端到端将分析问题的能力一下子提升之后，A公司每天处理200个案例，B公司每天处理一百万个案例，这就相当于是两个物种了。”

地平线感知端到端的商业闭环

“随着Sparse4D量产，地平线将完成端到端感知系统的商业闭环。”余轶南表示。

今年开始，随同征程5、征程6芯片，地平线将向智能驾驶一级供应商（Tier One，T1）和主机厂提供Sparse4D感知算法模型。

与当下第一梯队玩家量产的模块化+后处理组成的BEV+Transformer感知方案不同，Sparse4D是完全的端到端感知系统。其完全由神经网络，消除了由人类撰写代码的后处理环节。通过前端传感器输入数据后，可直接输出3维（长宽高3D）+时间的4D感知结果，以及3-9秒（依据不同精度）的预测结果。

在nuScenes纯视觉3D检测和3D跟踪两个榜单上，Sparse4D均位列第一，成为SOTA（state-of-the-art model某领域的最佳实践模型），领先于包括SOLOFusion、BEVFormer v2和StreamPETR在内的一众最新方法。

图片 4.png

Sparse4D算法架构

但要做端到端，就意味着放弃现有算法积累的代码。“因为我们是聚焦于计算方案和感知系统的，所以对我们来说做端到端感知是刚需。”余轶南表示。

因为征程6希望“搞定”城市NOA。地平线余凯曾在采访中明确表示，地平线已经在城区智驾领域投入三年时间和数百人的团队。这一代征程6（高阶版）追求“让用户觉得城区智驾功能真正有价值（安全、可靠、舒适）。”

目前，城区智驾处于成本、体验和效率的“不可能”三角当中。高成本、高体验的Robotaxi难以快速扩张运行范围；低成本、覆盖广的高速NOA难以在城区复制体验；已经落地的“无图”城市NOA处于体验差、扩张慢，成本难以收敛的现状。

究其原因，人类工程师撰写代码解决问题的速度，远赶不上城市场景中出现问题的速度。

而端到端将改变速度不匹配的现状。在余轶南看来，目前端到端为系统带来至少两个数量级的迭代效率提升，未来则将有可能是上千，甚至上万倍的提升。

仅做端到端的感知系统，又可有效避免端到端黑盒特性带来的潜在风险。由于感知是对物理世界的度量，无论是神经网络+代码，还是端到端的感知系统架构，都是通过感知位置、角度、速度、加速度的准确性、一致性、误差均值进行比较。

“只要误差比别人小，就相当于有了比较优势。”余轶南表示：“T1和主机厂是集成标准化的部分，自己把握非标准化的环节。自动驾驶系统中，感知是标准答案，规控取决于车企对用户的认识，是非标准化的部分。

所以地平线作为Tier2要把能标准化的标准化，并把效率做到尽可能最高。在这个认识的基础上，我们团队就做了效率最高的感知端到端。”

稀疏化的Sparse4D，一切为了效率

“如果只需要走1公里，用脚就可以。但如果要一天走1000公里，就需要发明火车、飞机”余轶南这样类比面对城市智驾场景，解题效率提升的重要性。

不仅是端到端的路线选择，地平线Sparse4D的算法架构也高度服务于这一效率思维。

目前，各家“无图”NOA都存在在主辅路、岔路口“不认路”的现实困境，在复杂路况中对其它动静态目标的检测也不完全，部分玩家选择采用OCC（占用网络）做远端硬隔离。

底层原因之一，是动态目标和车道线等自动驾驶感知的关键目标，在空间中的分布通常很稀疏。导致稠密输入/输出的BEV范式中，有大量的计算被浪费。在目标相对较少的高速路段，车端算力尚能支撑。但在城市路况中，端侧算力便开始捉襟见肘。同时特征级的多摄融合也并不等价于BEV。

图片 5.png

DETR3D搭建了纯稀疏感知的基本框架，即稀疏Query+稀疏特征采样的范式

Sparse4D的目标，是实现一个高性能高效率的长时序纯稀疏融合感知算法：既能加速2D到3D的转换效率，又能在图像空间直接捕获目标跨摄像头的关联关系。

稀疏化计算是更类似人脑的一种神经网络架构方式。

稠密计算的深度神经网络倾向于将每一层中的每个新神经元都与前一层中的所有神经元连接起来。但灵长类生物大脑中的神经元越多，平均下来每个神经元与其他神经元的连接就越少。但由于大脑天然对“重点”敏感，人类大脑消耗的能量是GPU的十分之一，但强度要高出10亿倍。

Transformer的自注意力机制构建起了能够“注意重点”的深层神经网络。但要在端侧处理诸如城市驾驶这样的超复杂问题，仍需进一步提升计算效率。与人类类似的，尽可能高效使用神经网络中每个权重的稀疏网络便成为新的解题方式。

从结果来看，稀疏类计算的Sparse4D在不增加模型推理计算量的前提下，显著提升了模型的检测效果。

同时，由于已经实现了目标检测的端到端（无需dense（稠密）-to-sparse（稀疏）的解码），instance（实例，如一张行人正在穿过车前的图片）在时序上已经具备了目标一致性（同一个instance始终检测同一个目标）。Sparse4D在无需修改任何训练流程的情况下，即可拓展完成端到端的检测和多目标跟踪任务。

图片 6.png

基于稀疏实例的Recurrent时序方案

在论文中，Sparse4D仍被表达为纯视觉的端到端感知方案。但余轶南表示，Sparse4D本质上是一个多模态的感知模型。“是完全兼容的插件模式，纯视觉、多模态都是完全兼容的。”

“对神经网络来说，不同模态的数据都可以被表示成一种标准结构，只要把时间同步做好，甚至不对齐也可以，因为它可以自己学。你唯一要管的就是算力，即背后的成本和功耗。”

跟或者不跟，端到端的未来

“如果是一个纯粹的技术选择，我会说放下手头所有东西去做端到端。如果我只是个技术人员，我觉得我今天做得最聪明的（代码）可能都没有意义。”余轶南表示：

“但对于一个公司来说，一个产品是基于公司业务、商业变现、营收利润、市场品牌等一系列通盘考虑的结果，是基于现状进行资源分配的问题：一方面要聚焦把当前的产品做好，另一方面也要有余裕做下一代技术预研。”

尽管端到端已成为今年自动驾驶界的热词，但并不意味着当下会有众多玩家迅速跟进。

首先，端到端意味着技术路线的改变，对此前积累的扬弃。从地平线的经验来看，端到端并非是将现有模块间的后处理消除，实现模块间的连续可导即可，需要建设新的、巧妙的网络架构。由此，之前架构中已经被验证的参数失效，并放弃大量人力写出的有效代码。

换而言之，目前能够被用于开城的技术成果要被放弃。而端到端的不可解释性和数据、算力需求，则是实打实的成本。

图片 7.png

4月9日，马斯克在X上发文称，特斯拉储备了3-35万块英伟达H100，即约29.67-346.15Eflops算力。作为对比，目前国内百度为极越准备的算力为2.2Eflops，小鹏扶摇超算中心的算力为0.6Eflops。

不过，余轶南估计端到端的初步算力建设门槛或为1000块英伟达A100，即19.5Pflops算力。目前，一块A100的价格约17万元，在不考虑建设和运营费用，仅“买卡”的情况下，基础的端到端起步便需要1.7亿元的成本。

“一个单独的（端到端）软件算法是无法构筑壁垒的。算力、算法、数据中，核心的壁垒是算力，因为算力是稀缺的。数据也构成壁垒，但它不是一个显性的壁垒，端到端未来一定会对数据有指数级的需求。”余轶南表示。

此外，大模型训练所需的分布式系统的硬件架构、数据闭环、训练方法，将成为端到端落地新的技术壁垒。

但端到端的吸引力也颇为巨大。

除特斯拉FSD V12目前表现出来的强泛化性和智慧涌现等显性优势外，目前困扰企业的路线选择也将不再是问题。

“端到端的体系下，传感器的取舍从先验（预设、小范围试验）变成了后验（实际使用），不再是方案选择的问题，而成了一个成本问题。”余轶南表示。

图片 8.png

当下，业内对纯视觉和激光雷达、有图无图，甚至纯视觉是否要包含毫米波雷达等技术方案争论不休。底层原因在于选择一种技术路线，涉及传感器、芯片、算法导整车整个垂直系统的整合、验证，成本大、周期长，且是基于预期效果进行选择，全凭技术大牛的直觉。

端到端体系下，极高的研发效率可在极短时间内将各类技术方案的逻辑链路、研发链路实际跑一遍，企业只需要就方案的实际效果和成本进行评估选择即可。

蔚小理、小米、智己都公布了自己的端到端模型上车计划，地平线在Sparse4D之外，也在预研全栈（感知+规控）端到端技术。

“我们还是比较冷静的。”余轶南将地平线对热技术、热概念的打法归纳为两步：“在我们没有看准的时候，我们不会冒进，尽可能保持低成本的方式跟随。一旦看准要上的时候，会投入可能十倍于别人的资源去推动核心技术突破，然后将沉淀下的经验成果开放地赋能给合作伙伴。”

地平线自动驾驶

评论：