蓝海情报网

加入端到端竞赛,理想智驾的快与慢

蓝海情报网 747

加入端到端竞赛,理想智驾的快与慢

文|刘俊宏

一向强调产品大于技术的理想汽车(下面简称理想),也加入了智能驾驶的端到端竞赛。

就在7月5日的智驾发布会上,理想一反常态,先宣布了全国无图NOA全量推送。随后,理想宣布,下一版本即将落地的大模型端到端智驾。

这意味着,从2023年才开始将智驾领先作为核心战略目标的理想,不仅追平了高阶智驾落地,更是在端到端的技术路线上,比已经落地的华为和小鹏还要激进。

一年来,理想在智驾技术的追赶中几次经历变动。

在2023年5月时,理想汽车智能驾驶副总裁郎咸朋在一次采访中还表示,理想还在做无图化的BEV+OCC智驾架构。而在今年的中国汽车蓝皮书论坛上,郎咸朋就一步跨为了端到端赛道的拥护者,端到端+大模型,是更接近于人类驾驶的智能驾驶方案。

除了郎咸朋,理想智驾端到端背后的核心研发人员,包括智能驾驶技术研发负责人贾鹏和高级算法专家詹锟。

无论是理想、华为、小鹏还是长城汽车,中国智驾玩家们普遍采用分段式的路线,与特斯拉FSD一步到位的跨越式端到端方案,形成了鲜明的对垒。

不过,对于理想这家善于用产品定义智能汽车的公司而言,智驾最大的意义在于理想拿下了智能汽车设计工具箱的最后一环。在理想MEGA失利后,理想真正意义上的下一代产品快要来了。

全国都能开,追平一线智驾水平

我们很羡慕理想,能在批量交付的车主中,选择种子用户来实验智驾。一位传统车企的智能化负责人对光锥智能表示。

相比去年就开放全国都能开的鸿蒙智行,理想的城市NOA落地节奏还是稍微慢了一步,智驾能力显然和销量不成正比。

2024年,整个行业的高阶智驾落地再向前推进了一大步,理想也跟上了节奏。

在7月5日的智能驾驶夏季发布会上,理想终于结束了今年5月开始的城市NOA测试体验。在智驾OTA6.0的升级中,面向AD MAX版本的用户全量推送了城市无图NOA功能。

本次升级,理想智驾通过行业内比较成熟的BEV+OCC+Transformer技术,实现了理想车主期盼已久的城市NOA。针对具体能力,理想还总结出了哪里都能开、绕行丝滑、路口轻松、默契安心的四大特色。

其中,哪里都能开是智驾行业去高精地图的成果。在普通导航地图的指引下,智驾有路就能开。路口轻松和默契安心,主要基于BEV+OCC技术的应用,智驾系统能够认识到外部环境,并做出相应的反应。

在我并线时,我看到了一个对象,汽车也看到并立即作出响应,这就是一种默契和安心,智驾顺畅通行的能力,理想汽车产品部高级副总裁范皓称。

加入端到端竞赛,理想智驾的快与慢

具体的特色功能,主要聚焦在绕行丝滑上。

在老城区场景中,经常会遇到前方车辆突然停下接人的情况。对于这种情况,行业内不少智驾玩家的决策是等待前车再次启动(或等一会再绕行)。而理想的绕行丝滑,则是与人类司机一样,等一秒钟便立刻打一把方向盘绕开。

加入端到端竞赛,理想智驾的快与慢

不磨叽绕行的背后,是理想在BEV中添加了时序概念。让传统BEV视角下,只能感受单帧图像内障碍物的智驾系统,拥有了预判未来的能力。

智驾理解时间的重要性,恰如人类的时间知觉。就像是人类结合自身位置和飞行轨迹接飞盘一样,在多帧画面的综合理解下,智驾也能明白事物的延续性和顺序性。对应到具体操作上,是预测自车与他车的空间交互关系,规划未来时间窗口内的所有可行驶轨迹,进而无需观望果断绕行。

通过这四大功能,理想智驾已经能够适应绝大部分场景,保障行车安全。但安全只是智驾最基础的能力,通过部分演示看到,理想智驾在逻辑决策上存在着短板。

例如在转向中,面对斑马线上加速通过的小孩,理想智驾起初仍选择正常通过,随后触发AEB紧急刹停。诚然在结果上,理想智驾没有发生事故。但若是真人司机操刀,是看到异常情况立即减速观望,而非继续尝试通过。

加入端到端竞赛,理想智驾的快与慢

出现如此情况,意味着理想智驾在逻辑决策与智驾控制能力的两个层面上,并未完全对齐。

逻辑问题,有望在落地端到端大模型后,在下一个版本中得到优化。

大模型的快与慢

理想的智驾团队和马斯克一样,都喜欢从本体论视角拆解目标。

马斯克从亚里士多德的第一性原理上,认识到能源的重要性。而理想智驾团队从《思考,快与慢》中认识到,学习人类的思维逻辑,是智驾达到人类水平的关键。

为了模拟人类的下意识反应和深思熟虑操作,理想智驾团队没有选择类似特斯拉FSD的跨越式方案,而是搭建了快慢双系统(对应系统一和系统二)。

加入端到端竞赛,理想智驾的快与慢

其中,系统一是完全的端到端架构。与特斯拉FSD一样,都是在收到传感器信息后,直接操作汽车。就像是人类面对正常路况一样,加减速不需要思考太多。这部分的训练,理想选择了与特斯拉类似的训练方式,让智驾直接学习五星好司机的真实驾驶视频。并添加强化学习,让智驾在模仿之余,找到更优的解法。

在系统一的基础上,理想将大模型(主要是VLM)作为高级规控的方式,控制整个智驾系统的逻辑决策能力。系统二的底层技术原理,可以理解为参考人类的综合信息理解能力。理想在传统智驾的Transformer框架下,将视频、汽车状态等信息统一扔进一个编码器。从而让智驾获得深思熟虑的能力,避免闹出白马非马的笑话。

加入端到端竞赛,理想智驾的快与慢

具体而言,在路口等待的场景中,行业不少解决方案只能认出红绿灯,但具体的读秒需要导航地图的反馈,无法实现智驾自动起步。而智驾有了理解能力之后,智驾不仅能认出红绿灯,还能明白读秒的含义。更进一步,当导航地图不够精确的时候,系统二会根据实际需要纠正导航地图的错误,避免汽车跟着导航开到辅路上。

加入端到端竞赛,理想智驾的快与慢

可以看到,大模型在更好地应对路况的同时,也萌生出了按照自己理解开车的想法。为了放大模型能力的上限,理想也给出了更符合大模型体质的训练方法。

在自动驾驶领域中,单靠真实数据训练智驾远远不够。为了让智驾学到现实难以遇上的Corner Case,需要在仿真环节中让智驾模拟训练。

2021年,特斯拉分享了一套基于3D虚拟+现实重建的仿真技术。通过对现实数据采集,特斯拉在虚拟世界模拟重构一些如高速上有人奔跑、马路上挤满人等超现实场景。虽说这套方案促成了今天的FSD,但缺点也非常明显。在极大的信息标注量和算力需求下,马斯克买不到足够训练用的GPU,只能干看着。

理想的解决方案,也是行业内目前普遍使用的,是将现实重建与Diffusion技术相结合。以真实数据为基础,画出想象中可能遇到的具体路况。例如在一段汽车驾驶的画面中,理想的仿真方案能根据提示词生成晴天、阴天、雨天、雪天等多种场景用于训练。

15秒经历一年四季,遍览世间繁华,理想汽车智能驾驶技术负责人贾鹏表示。

加入端到端竞赛,理想智驾的快与慢

如今,伴随着理想城市NOA落地,和即将开启的端到端大模型智驾测试,或许,理想能够凭借智驾能力,跳出理想ONE的围城。

跳出理想ONE的围城

理想可能是所有造车新势力们最羡慕的样子,但也是理想最想摆脱的样子。

羡慕的部分,是理想以单月超4万的销量,以实力碾碎市场上关于增程落后、创新全靠冰箱彩电沙发的争议。凭借对汽车产品理解,理想不仅成为了第一个盈利的造车新势力,更是以理想ONE开创了中国全新的汽车文化。

汽车工业过往时期,巨头们的崛起主要靠大时代下的错位竞争。在福特汽车制霸时期,是标准化生产让汽车走下奢侈品神坛;在日系车拿下美国市场时期,靠的是石油危机时提供的低出行成本;在中国自主品牌兴起的现在,一是靠供给侧降本实现低价对标合资车,二是通过电动化、智能化弯道超车。

但理想成功的路线,并非承接时代的机遇,只靠低价卷。而是从需求侧出发,以产品经理思维重塑了汽车行业过往从供给侧设计产品的模式。

在理想ONE上,理想基于用户画像、需求痛点、市场研究、用户体验等逻辑,给出了上市即交付、尽量少的选配、新能源与续航兼得(增程)、座舱空间享受等综合特性的汽车产品。在理想的一揽子产品思路下,汽车行业的后来者们纷纷开始效仿学习,理想也从理想ONE中差异化裂变出整个L系列。

但在此之后,理想真正意义上的下一代产品却始终没有到来。理想MEGA的受挫,完全可以认为是进军纯电赛道时选择了保守策略,以大型MPV的标签将自己限定在了一个相对小众的市场。或许,理想下一次产品的发力点,还得看今年未发的三款纯电产品。

但是,由高阶智驾带动的新一轮智能汽车需求,已经在揭开汽车市场的下一幕了。

随着2024年越来越多的车企宣布落地高阶智驾,在蔚来、理想、小鹏、小米、广汽、长城等车企,华为、毫末、Momenta、元戎启行、商汤绝影等头部智驾供应商的共同表态下,智驾端到端的技术架构也被提到了台前。

甚至,英伟达汽车事业部副总裁吴新宙还称,端到端,正是智驾三部曲的最终曲。

智驾玩家们如此看好端到端,并不只是看到了特斯拉FSD的成功经验、技术架构对信息的处理能力,或是大模型训练下的迭代速度。最核心的看好的,是端到端带来的主动智能。

正如长城汽车智能平台开发中心的高级总监姜海鹏所言,真正智能驾驶终点一定像人一样有思考,对场景有理解,基于对场景有理解基础之上做智驾的动作,端到端的路线,让机械的智驾有了媲美人类思维的可能。

不过,目前国内已经(或准备)落地玩家的情况,大多都是部分端到端的分段式方案,而非特斯拉FSD的跨越式架构。

其中,华为和小鹏的架构比较类似,大致方向是将之前智驾中感知、规划、控制三部曲,拆分成感知、规控两个端到端模型。长城的SEE大模型是将感知部分进行端到端处理,规控阶段有专家策略参与。理想的方案,则是用VLM充当完整端到端架构的高级规控,方案最激进。

国内智驾玩家采用分段式端到端架构的原因,可以参考李想在今年汽车重庆论坛上对于系统二用途的解释,用于端到端的训练,大概一个月十轮左右的训练,基本就可以完成一个无图 NOA 的上限水平。但是面对中国的复杂路况,只有端到端不够,我们要思考什么是系统二。系统二的启发在于,解决各种各样的Corner Case和各种泛化的问题。

换句话说,国内智驾系统们对于当前大模型能力的不足,在想办法通过更强规控的工程化方式去落地。

当数据达到特斯拉级别的百万量级以上,通过对模型的强训练,智驾可学习视频流,就能直接告诉司机驾驶的方向,像当下流行的ChatGPT一样,曾在特斯拉主导建立机器学习团队的谷俊丽在WAIC上如此表示。

但正所谓罗马不是一天建成的,李想在端到端智驾的变革中也找到了自己的方向,我们认为端到端 + VLM + 生成式的验证系统,也会是未来整个物理世界机器人最重要技术架构和技术体系。

看完觉得写得好的,不防打赏一元,以支持蓝海情报网揭秘更多好的项目。

标签:

ad2

推荐内容