AI大年夜模型端到端能否助力城市NOA摆脱激光雷达和高精地图的束缚

我们有幸约请到了安霸半导体研发副总裁孙鲁毅、智行者联合创始人张放以及亿咖通自动驾驶算法工程师&算法工具链卖力人汤易冰参与圆桌谈论。

在圆桌谈论环节，各位高朋各抒己见，分别揭橥了自己意见与见地。
以下内容是焉知汽车在不改变高朋原意的根本上，对核心内容进行了整理和提炼，以供业内人士参考。

对付城市NOA功能，须要面对和处理更繁芜的交通环境和更多类型的道路参与者。
因此，系统碰着的“长尾”场景也会大幅增多。
在这种情形下，有人认为：办理城市NOA功能的安全性和用户体验，是保障其落地的关键。
那么，现阶段实现城市NOA的规模化落地，还存在哪些问题须要办理？又该如何办理？

AI大年夜模型端到端能否助力城市NOA摆脱激光雷达和高精地图的束缚

孙鲁毅：现阶段，城市NOA还处于探索阶段。
由于城市道路构造相称繁芜，在有些路况下，人驾车都以为困难，更何况是自动驾驶系统。
现阶段，我们还须要办理一些通用障碍物的检测与识别的问题，比如在施工道路工况下。
那么，我们不仅须要有充足的算力和算法储备，并且，也须要支持摄像头、激光雷达以及4D毫米波雷达等多种异构传感器的领悟。

张放：关于城市NOA的落地，我紧张谈两个方面：第一个方面，是要办理城市NOA利用范围的问题。
“有图”方案的城市NOA功能的利用范围紧张限定是在高精舆图；现在，“无图”方案通过在线天生拓扑关系，办理了城市NOA功能在利用范围上受限的问题。

第二个问题，我认为也是更主要的问题 —— 城市NOA用户体验的问题。
我个人理解现在已经量产落地的城市NOA功能大都是处于“可用”的状态，并没有在达到“好用”的状态。
比如，在相对繁芜的城市工况场景下的体验还有待优化，再比如，我们有紧急的事情要处理，须要能够快速的达到目标地点。
在这种情形下，城市NOA还给不到非常好的体验，可能大部分人还是会选择自己开车。
大概，我们刚买车的时候，我们会抱着尝鲜的想法会试用城市NOA功能。
但是，如果不能办理好“用户体验”的问题，那么，它就不可能成为用户高频次利用的功能。

汤易冰：我们的思路跟特斯拉类似，即基于数据驱动和数据闭环的办法，通过大量的数据“喂”出来一个智能化的模型，去办理长尾问题。

在城市道路非常繁芜的情形下，传统的办法，比如舆图+障碍物检测这样的框架，在很多情形下显得有些力不从心。
现在，有占用栅格网络往后，相称于进行了一次革命。
我们已经看到华为和小鹏等一些头部企业的“无图”方案在陆续量产落地，我们可以持续跟踪和关注这些方案在城市道路上的表现。

其余，我以为很多城市NOA的办理方案，现在多模态领悟的技能路径效果较好，但如何在低本钱和低繁芜度的限定下达到同等效果还有很多事情要做。

当前阶段，AI大模型和智驾的领悟是大家共同探索的方向。
比如，a. 城市NOA的落地对自动驾驶模型的泛化能力提出更高的哀求，天生式AI有助于提高模型的泛化能力；b. 基于Transformer大模型去实现端到真个智能驾驶办理方案。
相较于目前模块化的开拓办法，感知、决策一体化的端到真个大模型可以避免级联偏差，提升视觉信息表达，优化终端性能体验。

那么，除了上述两个示例，AI大模型还能够助力城市NOA战胜哪些寻衅？贵司目前在AI大模型上面做了哪些干系的事情，打算如何通过AI大模型给自己当前所做的业务赋能？

孙鲁毅：作为芯片公司，我们的事情紧张是为大模型供应好根本的算力支撑，也便是说如何让芯片更好地去支持大模型的运行。
今年的CES上，安霸展出新款N1系列SoC芯片，在上面能够流畅运行多模态大模型（LLM）- Llama-2（130亿参数的大模型）。

大模型在智能驾驶场景的运用，包括场景的理解、自然措辞与场景结合的一些运用等。
比如，交警做出一个指挥手势旗子暗记，这个手势代表什么意思呢？个别路口用液晶显示牌通过笔墨指挥车辆该怎么走：往前走，往左转等；总之，这些都须要系统对场景做出精确的“解读”。

我前面举的是场景理解的情形，场景理解可能还会拓展到道路方案。
比如，用户打算去一个地方，但不是给出一个详细地理位置的点，而是一个笼统的位置—— 附近的商业中央，或者是附近风景比较好的景点，这就须要系统能够理解用户的意图，并且能够具化到跟用户需求比较匹配的地点，这是比较高等的匹配，而不是一个大略的搜索。

总之，大模型的运用方向非常多，但它的底层都是基于相似的架构，比如基于 Llama-2或者类似的架构。
作为芯片公司，我们紧张是从芯片和工具链等方面去支持通用的 Model，但详细到怎么运用大模型，还须要研发算法的这些同行去做详细的履行。

张放：现在，端到端和大模型这两个话题都比较火。
我理解端到端和大模型是两个不同的观点。
之前从感知定位到方案掌握，分别都是由不同的模块来完成。
如果每一个模块都是通过神经网络去做，这也是一个端到真个方案。

如果想实现更高阶的自动驾驶系统，比如城市NOA，并且要达到更好的性能体验，端到端并不是核心难点。
如果通过从头到尾的小模型进行串联或者并联，或者说是不同小网络的叠加，实在终极并不能实现非常好的性能体验。
问题的关键在于所利用的模型够不足大 —— 神经网络参数够不足多，网络层数够不足多，这才是核心。

其余，对付大模型在自动驾驶领域的运用，我紧张谈以下两个方面：

第一个方面：大模型能不能直接应用到车上，然后去完成车真个全体自动驾驶任务的实现？这一点现在还不是很成熟。
无论是从车端算力的支持，还是从全体大模型在通用人工智能和自动驾驶方面的一些能力来看，现在还不太能够支持全体大模型在车真个落地和量产。

另一个方面：如果大模型不能直接应用到车端，我们是否能供应一些间接的东西？实在，现在很多公司都已经开始基于大模型在做类似的事情，比如利用大模型去提升标注的效率 —— 通过自动化标注去节省人工以及全体数据的标注本钱。
并且，我非常看好大模型在合成数据方面的运用。
现在，OEM量产一款新的车型，包括从数采到数据标注的全体过程，可能数据的本钱至少是千万级别。
然而，通过数据合成的方案，大概能够大规模缩减全体数据利用的本钱，包括人工的本钱等各方面。
目前，我们自己，也包括我们的一些互助伙伴，也都在做这方面的探索。

汤易冰：自动驾驶系统原来是一个比较繁芜的多模块任务，现在大家希望可以通过一个类似人工智能大脑的端到端系统 —— 输入传感器的原始数据直接输出自车控车的方案或者决策。

但是，目前大模型还很难在车端直接应用。
现在，我们紧张还是运用大模型的理解能力在云端去做一些事情，比如数据标注、数据挖掘等。
当然，前面提到的数据合成，或者说场景重修也非常主要。
只不过，现在基于大模型的场景重修可能还没有达到我们想要的效果。

城市NOA的技能发展路径也可以分为超过式路线和渐进式路线。

从运用处景角度划分：超过式路线，可以理解成直接开拓全场景的城市NOA功能；渐进式路线，可以理解成先从场景固定的通勤NOA开始，然后再不断地扩大运用处景，末了迭代升级到全场景城市NOA。

从利用高精舆图的角度划分：超过式路线，可以理解成直接开拓“无图”的城市NOA功能；渐进式路线，可以理解成先开拓依赖高精舆图的城市NOA ，然后再开拓“轻舆图”的城市NOA，末了再开拓纯“无图”的城市NOA。

您认为城市NOA的技能发展路径该当是若何的？其余，OEM又该当如何根据自身的情形去选择适宜自己的技能路线？

汤易冰：作为一家供应商，我们希望能够供应不同的方案去知足OEM不同车型平台的差异化需求。
因此，我以为渐进式的发展可能对我们来说更故意义。
有的OEM可能须要一体化的方案，有的可能只须要一个根本的方案，如果我们都有相应算法和平台可以支持，那当然是最好的。

总的来说，如果要从大模型这个角度入手，彷佛我们很难走渐进式的发展过程，但这也取决于我们怎么去利用大模型。
我以为还是从云端运用大模型开始，先把场景构建起来，这样便可以提高我们的研发效能，同时提高我们模型和软件的泛化能力，进而加快城市NOA的量产落地速率。

张放：我先从通勤NOA和城市NOA这两个功能之间的关系提及。
我理解：通勤NOA是城市NOA的一种过渡状态，而且是非常短的一个过渡状态。
通勤NOA就类似于在城市场景下面的“影象停车”的观点，只不过现在变成了“影象行车”。

当系统感知能力不敷的时候，“影象行车”功能在第一次跑某个路段的时候，常日是没有办法正常利用。
那么，就先由人驾驶跑一遍，把所经路段的landmark记下来，然后，下次再跑的时候，“影象行车”功能就可以正常利用了。

对付城市NOA，目前已经有头部供应商给客户去Release全场景的“无图”方案。
在这种情形下，如果其它供应商再去做类似中间状态的方案，我认为会轻微慢了一个节拍。

另一方面，从高精舆图的角度去看，我认为高精舆图还是能够给城市NOA供应较大帮助，比如，在一些繁芜的路口 —— 不标准的十字路口（5岔或6岔口），并且路口比较空旷，如果现在车辆是处于路口中间，并且没有高精舆图，系统只能基于在线的感知数据去进行决策，车辆行驶起来会比较犹豫，可能只有在“看清或看到”某些东西的时候才会去实行下一步动作。
但是，如果有高精舆图，并且能够跟在线的实时感知相匹配，那么，系统便可以提前做好预判，并及时作出适当的实行操作，驾驶体验才会更好。

孙鲁毅：我从其余不同的角度谈一下个人意见。
不管是超过式，还是渐进式，须要辩证的去看问题。
如果想实现超过，一定要在某个方面已经有所积累，并持续不断“积累”，直到“厚积薄发”。
但“积累”也不一定是沿着当前市场最主流的方向。

举例子，特斯拉在2021年发布了BEV模型，但BEV网络模型并不是特斯拉发明的，只不过，特斯拉是第一个把BEV模型运用到自动驾驶领域的企业。
以是，你可以认为是特斯拉在BEV的根本上渐进式的发展，末了实现了超过。
当前面的领军者已经跑得很快，如果其他人再马首是瞻的去跟随，大概率是跟不上的。

但究竟是选择渐进式路线，还是超过式路线，可能更多的是决策者的问题。
同时，它也是一个非技能问题，更是一个综合的问题 —— 不仅仅要看市场上什么最前辈，还要考虑本企业、本团队的能力值在哪里等多方面的成分。

如果现在图商能够供应很好用的“轻舆图”方案，那么，智驾方案办理商或主机厂完备可以拿过来用，这实在便是一种“最小代价的选择”。
但是，如果现在没有找到任何“最小代价的选择”，也不妨考试测验其它路径，比如特斯拉选择的方法是通过探求到在干系行业研发赛道上做得比较领先的一些人才，并约请他们加入特斯拉，末了通过这些人才的跨领域创新，用在其它赛道上的方法办理了在自动驾驶赛道上碰着的问题。

刚才，我们谈到的大措辞模型，大家都刚开始探索，现在并没有决出终极的“胜利者”。
因此，不同的方向都值得去思考和探索。
对付一个企业，如果按传统的方法没有取得自己的位置。
那么，不妨去考虑一下，在新的赛道上，站在古人的肩膀上和新的发展方向上去找到自己的空间，因此，到底是选择渐进式，还是选择超过式，企业末了还是要针对市场的需求和自己所具有的能力进行综合考量。

不少业内人士认为：激光雷达是为自动驾驶供应安全保障的结局方案的必备传感器。
现阶段，对付城市NOA功能，到底要不要上激光雷达？更多的可能不是技能问题，而是商业考量的问题。
言外之意：现阶段，出于商业层面的考虑，激光雷达大概还不会被大规模量产运用，但是未来要实现L3及以上等级的自动驾驶，或许又将是必备的安全冗余传感器。

在现阶段，基于纯视觉的感知方案是否能够实现真正“好用”的城市NOA功能？实现真正“好用”城区NOA功能，究竟须要若何的传感器配置方案来支撑？若是必须上激光雷达，那么，激光雷达的存在又可以详细办理哪些场景下的问题？

汤易冰：比较纯视觉，带有激光雷达的方案可以填补很多感知上的不敷，尤其是远间隔目标的检测，纯视觉方案目前还是不如带激光雷达的方案。

但是，利用激光雷达最大问题便是本钱。
虽然激光雷达的价格已经降到一个可以接管的程度，但价格战又让OEM利润变得更加微薄，因此，是否上激光雷达，我以为确实不是一个从技能上可以拍板的事情。

从大模型或者算法发展的角度来说，现在的发展趋势是 —— 不同传感器之间的数据领悟和多模态数据处理变得更加成熟，这将有助于多传感器方案成为更多企业的选择。

张放：我认为实现“好用”的城市NOA功能的瓶颈不在传感器，而在于系统是否有一个很聪明的“大脑”。

通过纯视觉方案能不能实现一个“好用”的城市NOA功能？我认为终极一定能实现。
但目前的情形是“脑筋”跟不上，那么，这种情形下，激光雷达有没有用？如果不考虑本钱，单从技能角度来讲，现阶段，多一类异构传感器一定是好的，最最少多了从其余一个维度去感知外界环境。
举个例子，在阴天或者夜晚，摄像头不太好用的时候，如果有激光雷达一定是能够提升安全性。

我认为现在这个阶段，激光雷达是好用的。
从长远来看，如果只是要达到像人一样的驾驶水平，纯视觉方案也完备够用，但让它去实现超越人的驾驶水平，那就不一定能实现了。

孙鲁毅：首先，我讲一下我理解的现状：从目前主流的智驾芯片和领先车企的算法能力来看，如果把激光雷达彻底去掉，在城市的有些场景中确实还会存在问题。
缘故原由在于，目前我们数据演习集所支持的泛化指标的能力有限，同时也不可能采集到那么多数据。
虽然有些企业也采集了很多数据，但是他们算法的准确度以及产品运用方法也受限。

以是，当有些头部车企选择通过利用激光雷达去办理上面所说的一些问题时，它恰好符合我前面所说的“最小代价选择”的原则。
但我并不以为这是一个长期的趋势。

特斯拉选择纯视觉的方案，虽然不用除可能会考虑其他的传感器，但视觉肯定是最紧张的传感器，包括Mobileye也是如此。
自动驾驶终极到底要达到什么样的能力？实在并不是让自动驾驶系统跟人竞争，让系统在一个漆黑，又下雨的夜晚，在城区把车飙到120km/h 也不现实。
在某些情形下，人都不能驾驶，也不要对机器寄予太高的期望，这是我个人的意见。

以是，到底上不上激光雷达，是要看当前算力、算法发展的成熟程度，也要结合数据采集以及泛化能力、可量产性，以及未来技能发展趋势等要素综合来考虑。

总体来讲，我对激光雷达的发展前景不是特殊看好。
由于激光雷达是一个相对繁芜的元器件，并且属于主动器件。
摄像头和人眼都属于被动器件，主动器件跟被动器件的一个很大的差别在于，主动器件的发射的光波会相互关扰，如果所有的车或大部分的车都装置激光雷达，在这种情形下，这些车辆之间相互的多重反射一定会造成一定程度的滋扰，进而造成行车安全隐患。

其余，主动发射器件还存在功耗大和构造繁芜等问题。
在同样的技能条件下，一样平常来讲，繁芜系统的本钱会更高、可掩护性更差、寿命更短。

从长期来看，我个人比较看好被动传感器。
但是，在中短期来看，主动传感器里是否有可以寻衅激光雷达的传感器？我认为4D毫米波雷达将来有可能会取代激光雷达。
4D毫米波雷达的技能上风在于它比激光雷达有更高的反射率，探测间隔更远；其次，在恶劣景象情形下，比如大雨或者大雾，4D毫米波雷达受到的影响更小。
其余4D毫米波雷达还具有本钱上风。

在“降本增效”的大环境下，要实现城市NOA功能的规模化量产运用，只管即便摆脱对高精舆图的依赖已经成为业界共识。
目前，业界有两种比较主流的做法：1）给高精舆图“瘦身”，即在“精度”和“要素丰富度”上进行裁剪和简化，只保留对智能驾驶有用的图层和元素，最大程度上去办理高精舆图更新慢、采集本钱高档问题。
2）直接不该用高精舆图，利用感知传感器实时绘制的“矢量舆图”。

如何看待这两种技能路线方案？未来这两种技能路线会长期共存么？

汤易冰：我认为这两种技能路线该当会长期共存，在可预见的未来，我乃至以为高精舆图还是会存在。
由于高精舆图可以去做事更高价位的车型，或者说更高真个产品，毕竟高精舆图在城市场景还是能够发挥出它独特的上风。

高精舆图在城市场景下的运用限定，紧张是时效性的问题（鲜度），还有便是覆盖度的问题，这些问题目前也没有太好的办理办法。

对付“轻图”方案，我目前还没有看到太多比较成型的产品出来。
这些“轻图”如果能把上面提到的高精舆图存在的一些问题办理好，并且又能够知足城市NOA功能的利用需求，那么，我以为“轻图”也将是一个可靠性的方案。

对付“无图”的方案，从我们做算法的角度来讲，我们非常有信心，可以基于现有的视觉传感器，或者再加上毫米波雷达、激光雷达等传感器的实时感知数据，通过算法也可以做到像“轻图”一样的建图效果。
以是，从长期来看，我觉的这两种方案会共存。

张放：有一些企业在发布全场景“无图”方案的时候，并没有明确到底后面有没有高精舆图去支持更新，虽然它可能不是高精舆图，但还是可能须要“轻舆图”去更新，以是现在并不好下定论。
但从长远来看，我个人认为该当走“无图”的方案。

实在跟人开车一样，人类驾驶员通过电子导航舆图知道哪里该左转，哪里该右转这些根本的信息即可。
其它大部分情形，都是靠驾驶员自己在线去“感知”和“理解”外界情形。
如果把韶光线拉得足够长，自动驾驶系统肯定也是能够达到这个能力水平。
只是在现阶段，“轻舆图”是一个很好的补充传感器，由于他能够帮助自动驾驶系统去做超视距的感知。

孙鲁毅：我个人认为，这个趋势大概率是朝着“轻图”的方向去发展。
所谓的“轻图”并不是找别人买来的那种舆图，而是要靠自己的车队去动态天生。
实在没有车队，自车多跑几遍，形成自用的“影象舆图”。
这种办法天生的舆图，才更加靠近于人的驾驶体验。
比如，我开车在上海徐家汇某个地方兜几圈，系统就会自动绘制出这块路线的“舆图”，不仅知道道路大致的拓扑构造，还会知道哪个地方大概是在修路，这些便是所谓的“先验知识”。
先验知识怎么得来？先验知识每每须要通过大家共同的“积累”，便是所谓“众包”或者“众源”的模式，大家共同分享和利用数据。

因此，如果图商能够帮助主机厂做上面所说的一些事情，跟图商互助肯定是有代价的。
但是，如果以为图商的做的东西不能达到主机厂的期待值，也不妨自己去做。
我以为特斯拉大概便是做了自建图，只是他建图的完善度不须要达到高精度舆图的标准而已。
就像之前Mobileye做的REM舆图，它采集舆图只是提取了一些核心的语义信息，我认为这种语义舆图和规则舆图，便是能够见告自动驾驶系统：什么地方不能左转/右转，什么地方不能超速，什么地方有学校必须得减速等。
但如果没有这样的舆图，就不能提前获取到这些信息，驾车时碰着场景中的遮挡，就会影响到用户体验。

城市NOA终极的竞争的焦点是：本钱和用户体验。
这点基本上在业内已经达成共识，但终极的发展方向上还存在不同的意见：随着城市NOA功能越来越成熟（越来越好用），它终极会变成一项标准化的功能，还是会变成一项个性化和定制化属性越来越强的功能？您如何看此问题？

汤易冰：城市NOA现在的问题在于很难完备覆盖所有的场景和所有的地域。
由于在一些繁芜的工况下，还是存在一些 corner case须要去做非常分外的工程去办理。
因此，当城市NOA作为一个产品推出的时候，可能须要去做定制化的考量。

但是站在用户体验的角度，要做一个通用的、标准化的城市NOA功能，相对来讲又是一个比较困难的课题。
但从长期来看，城市NOA末了将会是一个比较统一的功能，只是对付不同地域或者不同需求的用户可能须要一些相对应的局部调度。

张放：我理解所谓的定制化，该当便是千人千面。
对付智能座舱，由于内容上的关系，须要实现千人千面。
但是对付自动驾驶功能，我认为不须要实现千人千面。
由于自动驾驶一旦成熟，就相称于我请了一个“AI司机”。
如果我有一个司机，我不会哀求司机的驾驶风格跟我一样，我只哀求能开得平稳，能够安全的把我从a点送到b点就行。

城市NOA要做差异化的缘故原由，实在更多的是站在卖车的角度。
但那是由于我们还没有实现真正的通用人工智能，还没有实现真正的“无人驾驶”。
一旦实现了L3及以上高等别的自动驾驶，对付用户而言，大概他们更须要买的并不是一辆车，而是一项通勤做事。

从长远来看，一旦实现了真正的“AI代驾”，对付我们大多数人而言，是不须要买车的，只是须要按需购买相应的出行做事就好。
对付出行做事，即便存在定制化，更多的是根据乘员或者载物的多少

定制不同大小的车，但是对付自动驾驶这个功能，我认为还是该当标准化。

孙鲁毅：关于这个问题，我先抛出不雅观点：须要定制化。
首先，从商业化的角度来讲，它就须要做定制化。
为什么呢？比如说，主机厂打算开拓一款定价在30万旁边的车型，自然要去稽核这个价位消费人群的“喜好”。
同样是豪华车，比如奔驰、宝马、奥迪，他们的目标客户群体就不太一样 —— 宝马目标客户倾向于喜好操控感和运动感，奔驰目标客户更关注内饰的豪华感和乘坐的舒适性。

对付城市NOA这个功能，也是如此。
站在车企的角度来讲，他们就须要去研究目标消费者的行为习气。
以是，有的车企会主打单激光雷达配置，有的主打双激光雷达配置，双激光雷配置达到底有多大用，我不知道。
但是，如果说他的目标客户群体便是以为双激光雷达好，那就叫“正中下怀”。

其次，从纯技能上来讲，由于驾驶习气有很多种，用户希望系统能学习自己驾驶习气，或者说至少有多种驾驶风格可以供自己去挑选。
驾驶风格多，就势必会对传感器的配置产生影响，比如，有的人习气加塞，跟车间隔比较近，哀求车辆能够刹停快，启动迅猛。
那么，它对付角雷达的需求可能就比较大。

其余，未来的智能汽车不仅仅是车，也是一个智能移动的空间，这就一定会打上个人色彩的标记。
以是我的意见是：城市NOA须要做差异化，由于这里面的“差异化”每每也是这家企业的代价所在。

每期AI知识网

AI大年夜模型端到端能否助力城市NOA摆脱激光雷达和高精地图的束缚

你天天看到的这些标志设计者都是他

一份申报四项收费AI面相到底是算命照样算钱