在2025年国际消费类电子产品展览会(CES2025)上,包括英伟达、谷歌、世界实验室等多家全球头部科技企业集体宣布入局人工智能领域当下最关键的方向——世界模型(WorldModels)。
所谓世界模型,最早出现在机器学习领域,专为物理交互、模拟工业环境和驾驶环境的高质量生成而构建。现阶段,世界模型主要用于生成逼真的视频训练机器人和自动驾驶汽车,并通过创建合成训练数据,帮助机器人和汽车理解物理世界。
世界模型为何备受瞩目?首先基于“自主决策”。相比语言模型还停留在理解人类语义阶段,世界模型则从一维形式的数字智能走向三维形式的空间智能,开始理解真实的物理世界,创建对世界运作方式的内部表征,理解现实世界的规律,并据此推理行为的后果,这种潜意识里的推理和决策,被认为是实现人类级智能的先决条件之一。
其次则缘于成本。自动驾驶的成长需要海量数据“喂养”,依靠丰富、复杂的场景进行“锤炼”。然而,现实测试中危险场景和长尾数据稀缺,3D重建又成本高、效率低。因此,采用合成数据来助力自动驾驶模型训练成了有效的解决方案——世界模型正是这样的场景生成和预测工具,自己“造数据”,可以用于场景数据增强、危险场景生成、算法评测等应用,有效降低自动驾驶研发中训练数据成本。
笔者认为,在自动驾驶领域,我们可以通过世界模型生成带有预测性质的视频数据,实现极端情况下的多样化训练;让世界模型采用强化学习的方法认识复杂驾驶环境,通过视频输出驾驶决策。
尽管世界模型在理论上具有巨大潜力,但在实际应用中仍然存在不确定性。例如,环境模拟的准确性极大地依赖于模型复杂度和数据质量,要精确地预测复杂环境中的动态变化,需要大量的数据和强大的计算资源,这需要庞大成本且漫长的周期方能实现。此外,在不同的应用场景中调整模型参数以适应特定的需求等问题也需要进一步研究、探索。
但无论如何,世界模型势必将成为汽车智能化的一道分水岭,其在场景生成、模型训练、仿真测试、数据闭环等方面的独特优势,将推动包括自动驾驶、机器人等在内的人工智能应用迎来高光时刻。