首页 智能汽车 正文
汽车数据金矿时代,卖“铲子”的公司
23-09-15 18:45:49 章涟漪 赛博汽车

随着汽车智能化大潮来袭,汽车数据成为人们眼中的“金矿”,但是如何采矿、冶炼这个金矿?恺望数据这样的公司,就如同淘金时代卖铲子的商家,成就他人,才能成就自己。近日,《赛博汽车》深度对话了恺望数据CEO于旭,聊聊她和恺望的故事。

图1.jpg

完成Pre-A轮数千万级别融资;发布最新版自动化AI数据产线——9月7日,AI数据服务公司恺望数据一次性官宣了两件大事。

而就在不久前,《赛博汽车》刚刚深度对话了恺望数据CEO于旭。谈及恺望为何能在成立一年半时间里成长飞快。于旭称,是因为选对了赛道、选对了定位。

作为以数据标注起家的公司,恺望数据成立至今一直处于天时地利人和之中。

近年来,受困于疫情等多方面因素,各行各业发展受限,但中国智能汽车市场还在快速发展。特别是高速和城市NOA(领航辅助驾驶)“大战”开启后,智能汽车赛道对大数据的需求呈现指数级上升,而作为智能驾驶得以实现的关键一环,数据标注行业发展迅速。

图2.png

恺望数据CEO于旭

“顺应行业大势之下,恺望在成立之初目标点也踩的很准确,我们就是要快速商业化,刚好数据标注也是车厂里难得的持续流水性需求。”在于旭看来,内外因双作用下,恺望得以快速发展。“我们属于迭代速度蛮快的,从今年3月开始,单月订单量就已经过千万。”

这一成长速度是飞快的。数据标注行业普遍共识是:从0起步到单月订单过千万,需要花费五六年时间。

在此背景之下,恺望数据一年内完成的第三次融资,成为资本宠儿。

随着汽车智能化大潮来袭,汽车数据成为人们眼中的“金矿”,但是如何采矿、冶炼这个金矿?恺望数据这样的公司,就如同淘金时代卖铲子的商家,成就他人,才能成就自己。所以,我们就来看看,恺望数据的故事。

01

双管齐下,撕掉“大人力”标签

在刚成立之初,其实资本市场对恺望数据,或者说数据标注本身不那么感冒。

毕竟,传统的数据标注,被认为是人力密集型行业,相比自动驾驶赛道企业行业,它科技感稍显不足,对于资本来说不够“性感”。

为什么会这样?这要从数据标注这个行业的属性说起。

图3.png

数据是AI算法的”饲料“

我们知道,数据、算力和算法是AI发展的三大基石。数据相当于AI算法的“饲料”,AI学习都要用标注好的数据进行训练,只有经过大量的训练,覆盖尽可能多的场景才能得到一个好的模型。

其中,数据标注是开发机器学习(ML)模型时预处理阶段的一部分,是对数据采集后获得的未经处理的语音、图片、文本、视频等原始数据进行加工处理,并转换为机器可识别的信息的过程。

显然,数据标注的质量和数量对算法迭代产生重要影响,标注数据的数量越多、质量越高,模型的训练和性能优化就越充分,性能就越好。

“大模型训练将越来越多地引领数据标注走向自动化。”但于旭坦言,目前的现状是,数据标注仍然以人工标注为主,机器标注为辅。以自动驾驶行业普遍水平来看,90%数据标注还是以人工为主。

“特别是去年我们和资本公司聊的时候,基本一提到‘标注’这个词,我感觉后面的基调基本就定了,很难去改变一些东西”。于旭回忆称,“即便如此,大家还是能感受到恺望的热情,以及我们对于这个行业还有很多新的解法。”

图4.jpg

自动标注和人工标注结合是当下数据标注最优解

于旭提到的新解法,是自动标注与人工标注相结合的方式。

这听起来并不特别,关键在如何落地,让数据标注速度更快、成本更低、效率更高。

“自动化技术+人力运营管理”是恺望提出的方案,具体通过两方面实现。

一是基于“自动化产线+规模化人力”策略,恺望数据推出了自动化数据产线,通过SaaS平台、算法、各板块建模等工具,将每个版块原子化拆分,进而优化每个环节效率。

另一方面,为了保证人力资源的规模化、稳定性,恺望数据也在推进校企生态合作,与全国20多家实训基地建立了合作,培训两千位多名数据标注员。

双管齐下,恺望数据在提高效率的同时,又大幅度降低了降本。据此前透露,这大概可以实现超过20%的成本降低。

02

紧跟自动驾驶落地方案,不断调整方向

于旭,或者说恺望数据显然不满足于此,还在不断地提升技术。

9月7日,恺望数据宣布融资当天,还发布了一个消息:最新版的“自动化AI数据产线”发布。

图5.jpg

恺望数据发布新版自动化AI数据产线

这条产线是为了迎合纯Lidar 4D-BEV、Lidar+Camera 4D-BEV、纯Camera 4D-BEV、Occupancy、End-to-end、Full Self-Learning End-to-end的发展。

拆解2023“Smart Chain恺望自动化AI数据产线”的全新工具平台,是一套“3456”数据服务工具包——包括:“3D辅助标注”工具平台、“4D-BEV数据拼接与标注”工具链、“5KW大点云”工具平台,以及“6大数据生态闭环解决方案”。

据恺望数据透露,可支持4D-BEV感知算法的数据拼接及数据标注工具链,可以实现大数据流并行作业、可同时支持200万人同时标注,目前已在车企应用。

恺望数据一直跟随自动驾驶技术方案的变化在调整自己的步伐,且目前还无法脱离人力。于旭以车企提出的不用高精地图的“无图”智驾方案为例做了一番解释——

无图方案很多时候需要解决“左转右转”问题,尤其在一些复杂路况,在道路结构上会有一些新的标注,这不太容易用现有模型去快速解决,其中一些可以通过工具解决,但很多还是需要人,特别是一些老司机的经验。

图6.png

在于旭看来,数据标注本身发展过程,和自动驾驶L1-5不断进阶的过程很像。先是完全人工操作,然后慢慢地由机器辅助,最终实现大部分场景依赖机器。

“目前行业还是以人力为主,因此自动化工具还没有办法适配那么多的场景,但痛点需求就在特殊场景上,在大模型还没能涌现到节点时,最快速、有效的解法就是有效的人加一定程度的自动化。”不过于旭坚信,行业要发展,一定是要往更高自动化走的。

除了技术,恺望数据还基于市场需求不断扩大自己的业务范畴。

恺望数据成立的初心,是成为一家数据标注公司,在此之下,其提出了“自动驾驶快充站”的定位。“最开始,我们希望能够提供的服务是,不管你需要什么样的数据,我两分钟就能给到,快速响应。”

但随着进入行业时间的增加,于旭发现,仅仅做数据标注这件事还不够。“落到具体应用场景里,每个客户都有自己的想法和需求,需要一站式解决方案,可拆分式极简供给”。

图7.png

“与自动驾驶相关企业沟通来看,他们一般主要是两点需求,首先标注本身肯定是刚需;其次是帮助自动驾驶和智能座舱实现数据闭环。”于旭称,针对后者,企业一般会询问,采集来的数据如何筛选过渡到标注平台、真值数据不行的话怎么解决、从训练到仿真还能提供哪些服务等问题,这需要团队成员综合能力极强,不仅要能回答问题,还要可以引导客户。

除了自身提供数据解决方案,于旭调侃称,恺望数据还“帮助爸爸找爸爸”。

她进一步表示,比如自动驾驶公司要找落地场景,一些主机厂或者其他合作伙伴刚好有资源。“哪怕不是采集、标注业务,只要我看到两者之间能产生新的价值点,我们很愿意去帮忙牵线,这个价值点对数据来说又会是新的源泉。”

03

学网约车经验,让数据标注快速起量

之所以能够快速找到窍门,大程度得益于于旭此前在Uber和Momenta工作的经验。

在成立恺望数据之前,于旭已有数据标注相关经验。

2016年,离开Uber后的于旭来到自动驾驶公司Momenta,成为除核心股东之外的第三号员工,开始负责Momenta从采集到标注,再到整个数据飞轮数据闭环搭建。

彼时,于旭刚刚接触标注行业,面临的第一个任务就非常困难。“感知算法要求单月要有1000万图的生产能力,但Momenta这时候的生产能力只有100万。”

为什么只有100万?于旭解释称,当时Momenta刚成立不久,员工只有20多名大学生和兼职,单月做到100万已经是极致了。“要在极短时间内做到1000万,且同时要成本可控,难度非常大。”

于旭想到在Uber的时候,也面临过同样的问题。

2014年至2016年,正值网约车大比拼时代,拿到更多的司机意味着能够掌握主动权。当时,于旭接到任务,需要在一周内招到5万司机。这意味着,不仅要在短期内招到人,还要培训让这些人变得有效,能够胜任网约车司机工作,难度非常大。

最终,于旭团队选择线上、线下结合的方式解决了这个问题。“线上我们自己做了一个小APP,解决了一大部分的问题。”线下,则是找到了“地头蛇”,传统的汽车租赁公司,请他们在短期内聚集了一大批人。

通过线上和线下相结合方式,于旭超额完成了任务,一周时间内招到了10万司机,使得北京单量跃升至全球第一。

图8.png

而与网约车类似的是,数据标注至少在2016、2017年,还属于对人力需求比较大的行业。Uber看起来“粗暴”的方式对Momenta显然也有效。

于是,于旭快速找到了一些人力公司,甚至包括之前接触的出租车租赁公司等渠道,通过这些方式快速集结到一些人,然后对他们进行业务培训,使得标注能力快速爆发,且成本相对较低。

有意思的是,这些出租车公司在上面提到的“智能驾驶技术从无图到有图过渡,如何更好的进行数据标注”这一问题,也起到了很重要的作用。

而正是基于这次的成功经验,于旭开始思考AI时代,运营跟技术结合的更多可能性。

由于是运营出身,于旭最初对AI技术的感知并不强烈,而正是由于此这段时间的经验,让她更清晰的认识到,运营可以成为AI与互联网行业结合的重要手段。这一想法在字节跳动接触大数据后更加强烈,并使其产生巨大的兴奋感。

于是,创业,这个念头在于旭脑中萌发,并很快付诸行动。

基于上述经验,于旭在恺望数据的人员结构上进行了调整,一方面建设了一支30多人左右核心团队,另一方面还与高校等合作陆续招募了将近2000人机动性进行标注工作,在控制成本的同时,最大程度的实现规模化“作战”能力。

很快,恺望数据拿到了第一个订单。

图9.jpg

恺望数据的核心合作伙伴们

“我们正式的第一个订单是一个只有5000元的小订单”,于旭称,尽管金额不大,但是这一小步为恺望数据积累了经验,形成成功案例才吸引到后续的客户们。截止目前,已经有40多家核心合作伙伴,100多家合作方。

伴随着商业化的不断推进。何时可以盈利也成为每个初创公司避不开的话题。于旭称,这也是她一直在思考的,不过,也不太着急。

于旭希望,今年还是把更多时间放在提高市场规模上,然后基于体量,不断迭代优化成本项内容。同时,提升技术水平也是关键。

但她也相信,恺望数据很快就能实现正循环。“目前根据不同类型的项目提供服务,既有贡献净毛利的产品,也有属于陪伴型的投入。我们预计三年内恺望数据能实现较好的毛利表现,并且肯定有明显增长。”

至于上市,于旭说,是“绝对的方向”,不过是后面才考虑的事情。


评论: