特斯拉率先落地，中国车企跟进：语音控车时代来了？

来源：21世纪经济报道作者：何煦阳2026-03-17 07:23

字号

超大

大

标准

小

舱驾一体的风刮了四五年，如今已经从硬件层刮到了模型层。

2025年7月10日，马斯克在X（推特）上宣布，Grok即将登陆特斯拉。两天之后，特斯拉官方账号发帖，告诉车主现在只需要按住方向盘上的语言按钮，就能激活Grok。

Grok是马斯克旗下xAI公司全栈自研的多模态通用人工智能大模型。

Grok上车特斯拉后，特斯拉的FSD（完全无人驾驶）能力得到了极大提升。用户体验到的最新功能是，只需要动动嘴巴就能开车——“导航至机场，沿途添加一家咖啡店，并在电池电量低于20%时提醒我”——Grok就能自动规划好路线，并通过自动驾驶将乘客送到途经点和目的地，并到点主动为车主提示电池电量。

英伟达机器人技术总监Jim Fan在2025年12月表示，特斯拉更新到FSD V14后已经通过了“物理图灵测试”。他已经分不清开车的到底是AI，还是真人了。

这是“舱驾一体”带来的新功能。以往车圈内所讲的舱驾一体，是在硬件层面，即用一颗芯片同时干完座舱和智驾的所有活儿。

这样的好处是能压缩整车成本，拉满算力利用率，降低跨域延迟。但目前能实现舱驾一体的芯片算力较低，平均在100TOPS左右，对于追求更高级别的自动驾驶与智能座舱功能的车企而言，这样的算力只能算杯水车薪。

但特斯拉将Grok与FSD融合，是数据和模型层面的舱驾一体。这要求打通座舱域的人机交互、用户行为、多模态感知域智驾域的环境感知、驾驶行为、场景决策数据的壁垒，实现全量数据的闭环共享与联合训练。同时实现座舱侧多模态大模型域智驾侧端到端自动驾驶大模型的深度协同，让整车智能系统从“分立的功能执行”，升级为具备场景理解、意图推理、全域融合的整车智能体。

国内车企很快跟进。2026年1月28日，理想汽车将自动驾驶团队并入软件本体团队，由勾晓菲统筹智能座舱与智能驾驶研发。2月3日，小鹏汽车的自动驾驶、智能座舱中心合并，新成立通用智能中心。刚过去的2025年Q4财报会议上，蔚来创始人、董事长兼CEO李斌明确表示“蔚来已经为这样跨部门的融合与数据的打通，以更快地感知、决策和执行，打好了基础”。

给自动驾驶装上“通用大脑”

车企为什么要推动舱驾融合？这给车企带来的主要收益是什么？用户又能感知到哪些显性的变化？

对于这个问题的答案，理想汽车CEO李想表示，为了打造具身智能“应对新一轮的AI竞争”；小鹏汽车董事长兼CEO何小鹏则认为，是因为“这两者的技术会合流，组成超级智能体”；在小米汽车智驾VLA技术负责人陈龙看来，舱驾融合的本质，是要推动座舱侧的多模态大模型与自动驾驶大模型融合，提升自动驾驶的推理能力。

小米在去年11月21日发布了由陈龙领衔的具身基座大模型MiMo-Embodied。

去年5月30日，MiMo-VL（Vision-Language Model，视觉—语言大模型）正式发布时，小米表示其不仅能看懂图像重点，还能将视觉信息翻译成语言，进一步理解因果关系和进行逻辑推理，这部分能力被 MiMo-Embodied直接拿来继承。

陈龙表示，在MiMo-VL和大语言模型的基础上，他还往MiMo-Embodied加入了许多机器人与驾驶场景数据进行训练，所以MiMo-Embodied其实是一个“通用具身大脑，处于VLM阶段”。到真正要用于自动驾驶中时，小米会再往“大脑”接上“小脑”，也就是“action expert”（动作专家模型）。

小米的MiMo-VL，对小鹏来说，就是其“XNGP灵犀大模型”；对理想来说，则是其“理想同学Mind GPT 3.1”。

车企训练的多模态大模型都不同，但之所以与自动驾驶大模型融合，都是为了同一个理由：让智驾大模型更具备人类的通识、价值观和推理能力，更明白在物理世界驾驶时“为什么”要这么开，提高自动驾驶水平。

将Grok与FSD融合后，FSD V14.2极大地解决了此前版本中困扰用户的微制动和突兀刹车问题，驾驶感更加平顺，被很多国外媒体评价为“丝滑”且具有“人类感”。

但Grok上车的好处还不止于此，现在Grok除了能帮助FSD更好地理解和推理人类驾驶环境外，还能够理解人类模糊的自然语言、结合车主需求与网络实时信息，最后都将其转译为可执行的导航规划。这种从“自己开车”到“用嘴开车”的转变，是以往车机系统很难做到的。

这跟何小鹏对把智能座舱与自动驾驶合并的回应一致：“这是为了让行车决策与人机交互不再分家。以后车在路上怎么开、人与车怎么聊，共享同一套AI基座模型。可以想象，不久的将来，你可以对它说‘带我去星巴克点杯咖啡’。这样的交互才更有温度、更拟人，才是AI时代真正的高阶智能。”

虽然都做舱驾融合，但车企对模型自研的侧重不同。

对多模态大模型，理想从一开始就选择自研，现在理想同学Mind GPT 3.1具备极速响应、深度推理、多端互联等能力，与其自动驾驶大模型融合后，或许能迅速提升其智驾水平。

但小鹏在自动驾驶的物理大模型上投入更多，其第二代VLA是拆掉规则、从头研发、国内参数和数据量最大的自动驾驶模型。对小鹏来说，自动驾驶的能力得到验证之后，他们更关注自动驾驶如何反哺智能座舱。

何小鹏直言，相信汽车很快会迎来跨域融合，“汽车行业正在进入新阶段：自动驾驶是整车运动，智能座舱是整车大脑，再加上动力、底盘，我认为这四个域都在进行跨域融合中。今年8月，小鹏将推出划时代座舱产品。”

之后的智能座舱，将越来越从“被动服务”走向“主动服务”。最近小鹏在G6上更新的天玑6.0，能够通过记录面容ID，根据乘客信息，预先提供定制化的座舱服务——针对性调节车内环境、建议导航线路、推荐媒体内容，甚至在低电量时为车主推荐附近的充电站。

把驾驶交给AI之后，汽车不仅越来越成为车主的管家，还有可能成为车主的情感伴侣。

在国内，座舱的拟人化情感交互做得较好的是蔚来。每辆蔚来车型驾驶台的中间都标配NOMI Halo物理交互组件，支持240度旋转，能精准转向说话的驾乘人员，配合数十种动态拟人表情，实现“眼神交流”式的交互，打破了语音助手“只闻其声不见其人”的冰冷感。

而特斯拉目前上车的Grok，拥有“助理”“讲故事的人”“精神错乱的人”三种人格，车主可以在旅行途中与Grok聊天放松，甚至让Grok扮演不同影视剧中的角色。Grok则可以通过车主的语音、面部表情、驾驶行为等多模态数据，判断车主情绪，调整交互风格。

“用嘴开车”前的安全博弈

目前，Grok上车之后只是一个导航助手和对话伙伴——它不能生成或改变FSD的驾驶策略。它让“用户与汽车对话规划路线”成为现实，但不能控制FSD的变道、刹车等操作，也不能解释驾驶决策。

这或许将迎来改变。

2月21日，Google Deepmind工程师Cristian Garcia表示：“FSD最大的缺点在于它无法通过语言指令控制。如果你能告诉他‘就在门口附近找个停车位’或者‘过一个街区后右转’，车主和汽车就都不用猜来猜去了”。

马斯克在下面评论：“就要来了”。

何小鹏在2026年的开工信里给出了同样的判断：“你（可以）对它说‘走前面的那条小路，绕开前面的几个红灯’”，而且他表示要在今年把Robotaxi、人形机器人、飞行汽车三大前沿物理AI业务全面落地，所以该功能或许在今年就将实现。

人类快到真正的“用嘴开车”的时候了。相比之下，现在的Grok只能叫作“用嘴导航”。

不过，自动驾驶的出现除了为了解放人类双手，还为了以优于人类司机数千甚至上万倍的水平，让驾驶过程本身更加安全。如果“用嘴开车”是为了追求智能与时髦，而非让驾驶更轻松与安全，这就本末倒置。

在自动驾驶技术真正到达人类能直接通过语言干预汽车自动驾驶策略的阶段之前，法规需要先划分基本的安全底线，明确哪些汽车功能能够放权给人类语音控制，而哪些功能不行。

2月25日，一位领克车主在无路灯高速路段发出“关闭阅读灯”指令，却被其Flyme Auo 2.0.0系统误判为“关闭全部照明”，大灯瞬间熄灭。车主多次语音重启未果，最后因视线受阻撞击护栏，所幸无人员伤亡。

去年11月，公安部主导的《机动车运行安全技术条件（征求意见稿）》发布，其中要求“汽车行驶过程中保障运行安全相关的操纵件（例如挡位、灯光、喇叭、前风窗玻璃除霜除雾、前风窗玻璃刮水器、车窗升降、辅助制动装置和组合驾驶辅助系统激活等），应装备实体操纵件。”自动化控制的灯光，虚拟按键也要显示在屏幕首页。

今年1月，上述意见已经结束征求意见，最早可能会在今年年中正式发布，明年开始生效。

这是人类“用嘴开车”的前夜。在一片浓重的墨色里，人类还需要继续研究如何让技术、法律甚至驾驶员自身充分地为安全负责。但到了黎明，或许这也是具身智能机器人的元年在汽车上正式开启的第一天。

责任编辑：胡青

理想汽车

小鹏汽车

语音控车

声明：证券时报力求信息真实、准确，文章提及内容仅供参考，不构成实质性投资建议，据此操作风险自担

下载"证券时报"官方APP，或关注官方微信公众号，即可随时了解股市动态，洞察政策信息，把握财富机会。

用户评论

登录后可以发言

网友评论仅供其表达个人看法，并不表明证券时报立场

发表评论

暂无评论

时报热榜

换一换

热点视频

换一换