记者张梓桐 实习生董浩文 上海报道


【资料图】

在刚刚结束的2023世界人工智能大会上,“AI大模型”的产业化落地问题成为了大会的焦点。如何让新一代人工智能在现实应用中生根,是一众企业和专家的关心的议题。其中,自动驾驶是“AI大模型”落地的一大方向。

在2023WAIC开幕式上,特斯拉CEO马斯克作出判断称,随着人工智能技术快速发展,预计大约在今年年末,便有望实现全面自动驾驶。

这一判断令行业震动。市场开始纷纷期待,在AI大模型的加持之下,自动驾驶的“奇点时刻”是否即将到来?

在清华大学计算机系教授、博士生导师邓志冬看来,目前的单模态语言大模型已经拥有了足够的能力,也具备通用人工智能的很多特征来支撑自动驾驶行业的发展。未来,行业需要进一步发展增强型的多模态大型语言模型,来对真实物理空间的自动驾驶、人形机器人进行技术支撑,以此来加速大规模的商业化落地。

自动驾驶新方向

在过去几年内,伴随着AI概念的起起伏伏,自动驾驶等AI落地场景的想象空间也引起着市场反复的热议。虽然去年以来在车企纷纷迈向城市NOA赛道的背景下,许多自动驾驶软硬件厂商开始形成商业闭环,但依旧有一些因素在制约其发展。

记者在走访中了解到,一方面,虽然目前车上各种传感器种类繁多,但如何将不同类型的传感器进行融合是一大挑战;另一方面,自动驾驶系统和人工智能系统的最核心问题为决策和判断模块,目前这些模块还是基于规则,因此显得不够智能。

但人工智能大模型的出现在一定程度上解决了这些问题。

商汤科技联合创始人、首席科学家、绝影智能汽车事业群总裁王晓刚在接受等媒体采访时表示,人工智能大模型给我们带来的革命性变化之一,就是多模态大模型对自动驾驶的赋能。

王晓刚告诉记者,人工智能大模型的特点就是用有限的能力不断去解锁之前不能完成的新功能和新任务,因此大模型一定会对下一代自动驾驶产生深刻影响。例如,多模态大模型把感知、决策,规划、控制等众多的模块能够去实现端到端的优化,以最终的驾驶体验为目标,可以极大提升其开发效率和用户体验。

“在未来,大模型给自动驾驶会带来新的变化。首先,自动驾驶的核心决策模块的规则会被人工智能的语言模型所替代,因为目前的语言模型展示出来了非常强大的推理、决策能力。与此同时,当决策模块提升后,就可以更好的融合从感知模块输出的各种信息,能够提升整体安全性和驾驶体验。”王晓刚判断称。

除此之外,王晓刚还指出,由于语言模型具备输出逻辑推理的过程来解释原因的能力,所以未来的自动驾驶系统会有更好的可解释性,可以更好的去诊断问题以及提升各方面的能力。

“过去自动驾驶存在着一大挑战,即AI模型可执行、可解释性不高。但现在大模型,尤其是语言模型,实际上不单是输出结果,而且还可以输出中间的逻辑推理过程来解释背后的原因,所以未来的自动驾驶系统会有更好的可解释性,当他出现问题的时候,可以更好的去诊断、优化。”王晓刚说道。

但他同时指出,人工智能的自动驾驶系统“上量”仍然需要一定的周期。而根据过去商汤科技在自动驾驶领域的量产经验,过去的难点用最新开发的UniAD框架去测试已经得到了比较显著的提升。

多模态模型

在语言、视觉、听觉大模型都取得了长足发展的当下,多模态大模型也随之应运而生。而这也为终端汽车的数字化、智能化进程按下了“加速键”。

“现在的汽车越来越像一台电脑了,一辆汽车现在由三台电脑控制,一台电脑控制底盘,一台电脑控制座舱,一台电脑控制智驾。”在2023年世界人工智能大会“AI与新一代车载智能感知融合创新论坛”现场,觉非科技创始人李东旻做出了上述的判断。

与此同时,李东旻也为记者介绍了自动驾驶发展的不同阶段。他表示,在第一阶段中,智能驾驶解决方案依靠的是各个小模型的堆叠,也就是通过多个独立“小模型”构成自动驾驶的感知、跟踪、融合、预测等能力,而这也是现阶段自动驾驶解决方案的主要输出方式。其中,觉非科技的融合定位能力、激光点云融合感知能力即是自动驾驶小模型的典型代表。

而在第一阶段的训练后,许多赛道内的创业公司通过在算法、数据上的积累,为第二阶段即“自动驾驶大模型与大数据方案”的到来,创造了先天的优势与壁垒。

李东旻对记者指出,大模型部署的难点在于算力与数据的支持。“举例而言,大模型所需的数据量通常是小模型的100倍以上,以前如果用10万帧或100万帧的数据训练就可以达到量产标准,而现在大模型则需要至少10亿帧的数据作为起点。”

因此,他表示,整个自动驾驶行业在技术路径上也达成了“惊人的共识”,即都希望在自己的技术路径上使用Transformer大模型。因此无论是新势力还是传统主机厂,都在自研或与觉非这样的合作伙伴进行技术合作,开展大模型的研发与量产。

王晓刚也在采访中表达了类似的观点,在他看来,算力始终是影响大模型发展的一大要素。

而为了应对算力的挑战,王晓刚也坦言称,商汤的大模型一直处于一种非常紧张的迭代状态。“商汤的大装置一方面需要针对不同类型的应用、不同类型的大模型进行优化。另一方面,商汤在部署端也积极接受合作商的反馈,不断适配各类软硬件。”

与此同时,王晓刚也表示,大装置也是需要针对不同类型的应用,因此不同类型模型的优化侧重点上也有所不同。“事实上,在部署端我们也做了很多工作,比如基础模型做完后,要开放给内部,甚至是外部的客户合作伙伴。他们能在模型上进行反馈,做比较好的开发。当然这也需要我把这些工具和API做好。”他说道。

推荐内容