加入端到端竞赛，理想智驾的快与慢

蓝海情报网 2024-07-15 00:25:43 753

加入端到端竞赛，理想智驾的快与慢

文｜刘俊宏

一向强调产品大于技术的理想汽车（下面简称理想），也加入了智能驾驶的端到端竞赛。

就在7月5日的智驾发布会上，理想一反常态，先宣布了全国无图NOA全量推送。随后，理想宣布，下一版本即将落地的大模型端到端智驾。

这意味着，从2023年才开始将智驾领先作为核心战略目标的理想，不仅追平了高阶智驾落地，更是在端到端的技术路线上，比已经落地的华为和小鹏还要激进。

一年来，理想在智驾技术的追赶中几次经历变动。

在2023年5月时，理想汽车智能驾驶副总裁郎咸朋在一次采访中还表示，理想还在做无图化的BEV+OCC智驾架构。而在今年的中国汽车蓝皮书论坛上，郎咸朋就一步跨为了端到端赛道的拥护者，端到端+大模型，是更接近于人类驾驶的智能驾驶方案。

除了郎咸朋，理想智驾端到端背后的核心研发人员，包括智能驾驶技术研发负责人贾鹏和高级算法专家詹锟。

无论是理想、华为、小鹏还是长城汽车，中国智驾玩家们普遍采用分段式的路线，与特斯拉FSD一步到位的跨越式端到端方案，形成了鲜明的对垒。

不过，对于理想这家善于用产品定义智能汽车的公司而言，智驾最大的意义在于理想拿下了智能汽车设计工具箱的最后一环。在理想MEGA失利后，理想真正意义上的下一代产品快要来了。

全国都能开，追平一线智驾水平

我们很羡慕理想，能在批量交付的车主中，选择种子用户来实验智驾。一位传统车企的智能化负责人对光锥智能表示。

相比去年就开放全国都能开的鸿蒙智行，理想的城市NOA落地节奏还是稍微慢了一步，智驾能力显然和销量不成正比。

2024年，整个行业的高阶智驾落地再向前推进了一大步，理想也跟上了节奏。

在7月5日的智能驾驶夏季发布会上，理想终于结束了今年5月开始的城市NOA测试体验。在智驾OTA6.0的升级中，面向AD MAX版本的用户全量推送了城市无图NOA功能。

本次升级，理想智驾通过行业内比较成熟的BEV+OCC+Transformer技术，实现了理想车主期盼已久的城市NOA。针对具体能力，理想还总结出了哪里都能开、绕行丝滑、路口轻松、默契安心的四大特色。

其中，哪里都能开是智驾行业去高精地图的成果。在普通导航地图的指引下，智驾有路就能开。路口轻松和默契安心，主要基于BEV+OCC技术的应用，智驾系统能够认识到外部环境，并做出相应的反应。

在我并线时，我看到了一个对象，汽车也看到并立即作出响应，这就是一种默契和安心，智驾顺畅通行的能力，理想汽车产品部高级副总裁范皓称。

加入端到端竞赛，理想智驾的快与慢

具体的特色功能，主要聚焦在绕行丝滑上。

在老城区场景中，经常会遇到前方车辆突然停下接人的情况。对于这种情况，行业内不少智驾玩家的决策是等待前车再次启动（或等一会再绕行）。而理想的绕行丝滑，则是与人类司机一样，等一秒钟便立刻打一把方向盘绕开。

加入端到端竞赛，理想智驾的快与慢

不磨叽绕行的背后，是理想在BEV中添加了时序概念。让传统BEV视角下，只能感受单帧图像内障碍物的智驾系统，拥有了预判未来的能力。

智驾理解时间的重要性，恰如人类的时间知觉。就像是人类结合自身位置和飞行轨迹接飞盘一样，在多帧画面的综合理解下，智驾也能明白事物的延续性和顺序性。对应到具体操作上，是预测自车与他车的空间交互关系，规划未来时间窗口内的所有可行驶轨迹，进而无需观望果断绕行。

通过这四大功能，理想智驾已经能够适应绝大部分场景，保障行车安全。但安全只是智驾最基础的能力，通过部分演示看到，理想智驾在逻辑决策上存在着短板。

例如在转向中，面对斑马线上加速通过的小孩，理想智驾起初仍选择正常通过，随后触发AEB紧急刹停。诚然在结果上，理想智驾没有发生事故。但若是真人司机操刀，是看到异常情况立即减速观望，而非继续尝试通过。

加入端到端竞赛，理想智驾的快与慢

出现如此情况，意味着理想智驾在逻辑决策与智驾控制能力的两个层面上，并未完全对齐。

逻辑问题，有望在落地端到端大模型后，在下一个版本中得到优化。

大模型的快与慢

理想的智驾团队和马斯克一样，都喜欢从本体论视角拆解目标。

马斯克从亚里士多德的第一性原理上，认识到能源的重要性。而理想智驾团队从《思考，快与慢》中认识到，学习人类的思维逻辑，是智驾达到人类水平的关键。

为了模拟人类的下意识反应和深思熟虑操作，理想智驾团队没有选择类似特斯拉FSD的跨越式方案，而是搭建了快慢双系统（对应系统一和系统二）。

加入端到端竞赛，理想智驾的快与慢

其中，系统一是完全的端到端架构。与特斯拉FSD一样，都是在收到传感器信息后，直接操作汽车。就像是人类面对正常路况一样，加减速不需要思考太多。这部分的训练，理想选择了与特斯拉类似的训练方式，让智驾直接学习五星好司机的真实驾驶视频。并添加强化学习，让智驾在模仿之余，找到更优的解法。

在系统一的基础上，理想将大模型（主要是VLM）作为高级规控的方式，控制整个智驾系统的逻辑决策能力。系统二的底层技术原理，可以理解为参考人类的综合信息理解能力。理想在传统智驾的Transformer框架下，将视频、汽车状态等信息统一扔进一个编码器。从而让智驾获得深思熟虑的能力，避免闹出白马非马的笑话。

加入端到端竞赛，理想智驾的快与慢

具体而言，在路口等待的场景中，行业不少解决方案只能认出红绿灯，但具体的读秒需要导航地图的反馈，无法实现智驾自动起步。而智驾有了理解能力之后，智驾不仅能认出红绿灯，还能明白读秒的含义。更进一步，当导航地图不够精确的时候，系统二会根据实际需要纠正导航地图的错误，避免汽车跟着导航开到辅路上。

加入端到端竞赛，理想智驾的快与慢

可以看到，大模型在更好地应对路况的同时，也萌生出了按照自己理解开车的想法。为了放大模型能力的上限，理想也给出了更符合大模型体质的训练方法。

在自动驾驶领域中，单靠真实数据训练智驾远远不够。为了让智驾学到现实难以遇上的Corner Case，需要在仿真环节中让智驾模拟训练。

2021年，特斯拉分享了一套基于3D虚拟+现实重建的仿真技术。通过对现实数据采集，特斯拉在虚拟世界模拟重构一些如高速上有人奔跑、马路上挤满人等超现实场景。虽说这套方案促成了今天的FSD，但缺点也非常明显。在极大的信息标注量和算力需求下，马斯克买不到足够训练用的GPU，只能干看着。

理想的解决方案，也是行业内目前普遍使用的，是将现实重建与Diffusion技术相结合。以真实数据为基础，画出想象中可能遇到的具体路况。例如在一段汽车驾驶的画面中，理想的仿真方案能根据提示词生成晴天、阴天、雨天、雪天等多种场景用于训练。

15秒经历一年四季，遍览世间繁华，理想汽车智能驾驶技术负责人贾鹏表示。

加入端到端竞赛，理想智驾的快与慢

如今，伴随着理想城市NOA落地，和即将开启的端到端大模型智驾测试，或许，理想能够凭借智驾能力，跳出理想ONE的围城。

跳出理想ONE的围城

理想可能是所有造车新势力们最羡慕的样子，但也是理想最想摆脱的样子。

羡慕的部分，是理想以单月超4万的销量，以实力碾碎市场上关于增程落后、创新全靠冰箱彩电沙发的争议。凭借对汽车产品理解，理想不仅成为了第一个盈利的造车新势力，更是以理想ONE开创了中国全新的汽车文化。

汽车工业过往时期，巨头们的崛起主要靠大时代下的错位竞争。在福特汽车制霸时期，是标准化生产让汽车走下奢侈品神坛；在日系车拿下美国市场时期，靠的是石油危机时提供的低出行成本；在中国自主品牌兴起的现在，一是靠供给侧降本实现低价对标合资车，二是通过电动化、智能化弯道超车。

但理想成功的路线，并非承接时代的机遇，只靠低价卷。而是从需求侧出发，以产品经理思维重塑了汽车行业过往从供给侧设计产品的模式。

在理想ONE上，理想基于用户画像、需求痛点、市场研究、用户体验等逻辑，给出了上市即交付、尽量少的选配、新能源与续航兼得（增程）、座舱空间享受等综合特性的汽车产品。在理想的一揽子产品思路下，汽车行业的后来者们纷纷开始效仿学习，理想也从理想ONE中差异化裂变出整个L系列。

但在此之后，理想真正意义上的下一代产品却始终没有到来。理想MEGA的受挫，完全可以认为是进军纯电赛道时选择了保守策略，以大型MPV的标签将自己限定在了一个相对小众的市场。或许，理想下一次产品的发力点，还得看今年未发的三款纯电产品。

但是，由高阶智驾带动的新一轮智能汽车需求，已经在揭开汽车市场的下一幕了。

随着2024年越来越多的车企宣布落地高阶智驾，在蔚来、理想、小鹏、小米、广汽、长城等车企，华为、毫末、Momenta、元戎启行、商汤绝影等头部智驾供应商的共同表态下，智驾端到端的技术架构也被提到了台前。

甚至，英伟达汽车事业部副总裁吴新宙还称，端到端，正是智驾三部曲的最终曲。

智驾玩家们如此看好端到端，并不只是看到了特斯拉FSD的成功经验、技术架构对信息的处理能力，或是大模型训练下的迭代速度。最核心的看好的，是端到端带来的主动智能。

正如长城汽车智能平台开发中心的高级总监姜海鹏所言，真正智能驾驶终点一定像人一样有思考，对场景有理解，基于对场景有理解基础之上做智驾的动作，端到端的路线，让机械的智驾有了媲美人类思维的可能。

不过，目前国内已经（或准备）落地玩家的情况，大多都是部分端到端的分段式方案，而非特斯拉FSD的跨越式架构。

其中，华为和小鹏的架构比较类似，大致方向是将之前智驾中感知、规划、控制三部曲，拆分成感知、规控两个端到端模型。长城的SEE大模型是将感知部分进行端到端处理，规控阶段有专家策略参与。理想的方案，则是用VLM充当完整端到端架构的高级规控，方案最激进。

国内智驾玩家采用分段式端到端架构的原因，可以参考李想在今年汽车重庆论坛上对于系统二用途的解释，用于端到端的训练，大概一个月十轮左右的训练，基本就可以完成一个无图 NOA 的上限水平。但是面对中国的复杂路况，只有端到端不够，我们要思考什么是系统二。系统二的启发在于，解决各种各样的Corner Case和各种泛化的问题。

换句话说，国内智驾系统们对于当前大模型能力的不足，在想办法通过更强规控的工程化方式去落地。

当数据达到特斯拉级别的百万量级以上，通过对模型的强训练，智驾可学习视频流，就能直接告诉司机驾驶的方向，像当下流行的ChatGPT一样，曾在特斯拉主导建立机器学习团队的谷俊丽在WAIC上如此表示。

但正所谓罗马不是一天建成的，李想在端到端智驾的变革中也找到了自己的方向，我们认为端到端 + VLM + 生成式的验证系统，也会是未来整个物理世界机器人最重要技术架构和技术体系。

看完觉得写得好的，不防打赏一元，以支持蓝海情报网揭秘更多好的项目。

标签：标签内容随笔