12月10日空想召开了空想汽车智能软件发布会,公布了三项更新:AD 3.0智能驾驶、SS 3.0智能空间和REV 3.0智能增程。空想AD 3.0智能驾驶在算法方面进行了全面更新,从之前的模块化算法架构变成端到端算法架构,这种变革相称于空想重做了一套新的智能驾驶系统,除了界面UI相同,内部核心完备不一样。
这套新的智驾算法运用了新的One Model感知大模型、行为预测模型、端到真个决策网络和时空联合方案模型,将智能驾驶的感知辨别与决策都交给了AI大模型,紧张目的在于通过AI仿照人类驾驶思路来提升智驾体验。空想AD 3.0拥有了更聪明的智能驾驶、赞助驾驶,以及功能更丰富的代客停车功能。很明显空想这套新的智驾系统的实现逻辑,更像赛车游戏的影子模式和我们常用的扫地机器人。
用BEV+占用网络做感知,用一种新的思路办理智驾难题今年智能驾驶领域都在卷城市NOA开城,余承东在智界S7发布会中表示城区NCA将在年底实现全国商用,小鹏Xmart OS 4.4.0版本将城市NOA开城数量增加至25个城市。空想通过这次OTA将开城数量增加至110城,乃至表示智能驾驶“全首都能开”,连续深化城市NOA的内卷。
车企们的城市NOA开城内卷,实际上是基于智能驾驶功能感知道路信息,大模型算法迭代驾驶决策、再OTA至车机实现迭代的流程。因此无论空想、小鹏、蔚来还是华为,城市NOA的开城数量PK磨练的是车企们的算力、算法和数据积累的能力。
大多数车企智驾开城思路,都是通过通勤NOA等点到点的智能驾驶方案磨炼大模型,之后上线全场景城市NOA。空想在今年6月推送城市通勤NOA,12月实现110城的城市NOA开城,也得益于足够的数据积累。
根据AI大模型的算力、算法和数据三要素,空想在拥有双Orin-X芯片的充足算力和足足数据之后,模块化的空想AD 2.0便是必须改造的选项了。
空想AD 2.0算法架构是通过NPN网络和TIN模型来增强BEV大模型,NPN网络卖力感知路面行车、行人等障碍元素,TIN卖力感知旗子暗记灯意图,利用模拟学习做出更像人类驾驶者的决策。这种算法构造利用了多个小模型,终极反馈到BEV网络。但模块化架构的缺陷也在于各司其职,感知大模型迭代速率慢。
空想AD 3.0算法架构做到了精简,用端到真个大模型构造取代了模块化构造。大略来说,便是一套大模型整合了之前所有模块化的小模型,传感器输入的原始数据统一输入到一个深度学习神经网络,直接输出驾驶命令。这套算法架构卖力感知、行为预测、决策、方案、掌握,直接输出为驾驶动作。
新的感知大模型包括了静态BEV、动态BEV以及Occupancy占用网络,用来组建全体感知舆图。Occupancy占用网络用摄像头替代雷达,办理遮挡物识别的问题。传统的BEV思路是摄像头卖力拍摄2D画面,激光摄像头卖力将2D画面转化成为3D,定义在空间内的霸占体积。占用网络的核心思路便是得到体积占用率,将天下分成眇小或超眇小的立方体体素,预测每个体素空间的占用状态。以是我们在占用网络的BEV鸟瞰图中,会看到像《我的天下》这种像素风画面。
提到感知,大家都会遐想到华为GOD网络,但GOD网络与Occupancy占用网络有明显差异。华为GOD网络虽然同样将3D空间体素化,但紧张针对付障碍物检测,华为GOD网络的数字天下空间是无数的不同形状的障碍物。而空想AD 3.0利用的是纯视觉方案,占用网络从摄像头网络数据,还原真实的物理天下。
空想AD 3.0的智能驾驶方案核心思路便是用视觉复刻一套数字版的物理天下,占用网络呈现所有物体的占用体素,决策大模型卖力规避所有体素,无需标识障碍物。
这种算法上风提升在于光芒敏感变革较大的隧道、繁芜十字路口等场景,通过摄像头减少无法识别类型的障碍物,无需侧重大数据标注。很明显的体验升级点便是安全性,车辆能够识别大多数异形障碍物,减少碰撞事件。
赛车游戏的影子模式复刻,赞助驾驶开始模拟人类前文我们提到空想AD 3.0系统将物理天下进行数字化还原,表示在智能驾驶方面在于呈现道路方案、交通参与者和预测模型。而在赞助驾驶方面省去了Occupancy占用网络,通过TIN旗子暗记灯意图网络和虚拟车道线来办理这个问题。
空想AD 3.0的BEV网络在城市环境内紧张通过感知行车线构建,通过行车线的波折程度确定是否处于弯道状态来调度速率。但如果碰着无车道线或车道线混乱的路段,BEV网络就会无法识别车道边界,导致赞助驾驶退出。
车企们办理该问题大多都会利用车道居中+速率自适应的策略保持居中行驶,而空想的策略是在大模型上方案虚拟车道,让车在“车道线”行家驶。不得不说,空想这个虚拟车道看起来大略,但实际上很奥妙。
空想虚拟车道线方案的依据是道路边沿、前车行车车辙再加上车道宽度的预估,赞助驾驶系统就可以根据车辙等信息来剖断前车经由这段路程所做的策略,比如靠左规避某些障碍物。在体验方面,这种虚拟车道技能实际上复刻了前车的驾驶逻辑,即“老司机怎么开我就怎么开”,进一步贴合人类的驾驶风格。
为什么仅靠看车道线就能学习人类的驾驶逻辑?实在不难创造这个技能的实现思路类似于赛车游戏。由于行车轨迹的波折与否,决定了该车辆会以什么角度或速率行进,大模型靠车辙推导速率与方向盘角度,从而做出决策。
大略来看,该技能很类似于赛车游戏的影子模式。空想虚拟出一个前车模型,通过行驶方向、速率的变革无限靠近于该模型。喜好玩赛车游戏的朋友,一定会对这个影子模式印象颇深。空想AD 3.0的大模型大概率都在不雅观测车辙信息或前车的驾驶状态,为自己设置无数个影子模式,用来赞助驾驶决策。
代客停车支持跨层停车,更像带摄像头的扫地机器人关于代客停车功能,这次空想AD 3.0在小鹏之后也推出了跨层地库的代客停车,成为第二个支持该功能的智驾系统。之前华为ADS 2.0明确不支持无网络区域的地库停车,紧张缘故原由在于障碍物识别须要GOD网络标注,而空想的AD 3.0支持的代客停车系统同样活用了Occupancy占用网络实现夸多层通道行驶。
Occupancy占用网络同样用体素呈现障碍物,BEV大模型感知车辆位置,对车辆元素进行重点标识。而车辆属于形状规则的障碍物,大多数感知模型都能够本地识别,占用网络的紧张浸染在于识别停车场边界,构建不规则的停车场模型。
而车库环境的特点在于低速、障碍物繁芜度低,但车道环境繁芜度高,空想AD 3.0的代客停车的思路是摄像头构建Occupancy占用网络、超声波雷达用于测距、大模型做出进一步决策。
这次发布会展现的车库直角弯案例证明了这点,车辆在无法通过时会采纳倒车策略,对待窄车道、直角弯这种极限状态会改换驾驶策略而非将掌握权交给人类驾驶员。相对付其他品牌的夸层代客停车方案,空想突出了中大型车体在极限路况上的处理能力。
实在所有代客停车方案的实现形式都并不深奥,可以算作是扫地机器人的放大版,扫描到危险附近时停滞提高、选择另一条路连续走。各个车型的代客停车方案的紧张差异则集中在感知方案和决策大模型上。华为代客停车的问题在于GOD网络过于依赖远程网络赞助,从而在功能上受到一定的限定。
结论:空想AD 3.0智能驾驶的创新点在于Occupancy占用网络与BEV网络的结合,改进了标注算法的毛病,在体验上直不雅观的升级点便是更加安全、驾驶风格更像人类一样平常自然。空想从之前的多个小模型的模块化算法构造到端到端构造,这次升级让空想的智能驾驶达到了与华为、特斯拉近似的水平,值得所有空想用户升级。