对话英伟达业务副总裁：机器人的“ChatGPT时刻”正在到来

来源：第一财经作者：郑栩彤2026-03-19 17:32

字号

超大

大

标准

小

英伟达业务扩充的信号变得明显。本届GTC大会上，英伟达发布的产品涵盖了数据中心加速器、机架、网络产品和多款开源模型。CUDA、GPU、LPU（语言处理单元）、AI工厂、机器人、自动驾驶、开源模型等关键词在英伟达CEO黄仁勋的演讲中被频频提及。这家以GPU闻名的公司，如今将其定义为一家包揽AI基础设施或AI工厂多个环节的厂商似乎更加合适。

即便只是在数据中心加速器这一环节，英伟达的产品类型也变得多样。Rubin平台在GPU之外，一款LPU也加入进来。原属于专用集成电路（ASIC）的LPU与通用的GPU站在不同阵营，但英伟达拿下Groq的授权后，开启了两种芯片的联合。

而在以大型云厂商为客户的60%业务之外，看起来更为庞杂的40%业务中，英伟达也落下新子。物理AI中的自动驾驶和机器人成为两个重要抓手。为了部署物理AI，英伟达不仅做硬件，还做自动驾驶平台和模型。

要理解今天的英伟达可能比以往更不容易，但这家牵动着诸多AI领域发展的公司到底在如何勾勒AI的未来，仍是值得探究的问题。GTC大会期间，第一财经记者与英伟达超大规模和高性能计算副总裁Ian Buck、Omniverse与仿真技术副总裁Rev Lebaredian分别进行了一场对话，试图解读英伟达做一些产品的思路和考虑，探讨了芯片的异构化现象、英伟达为物理AI铺设的棋局，以及为何机器人的“ChatGPT时刻”正在到来。

为何GPU仍占主导

以Groq的技术为基础，英伟达本届GTC推出了LPU芯片Groq 3和Groq 3 LPX 机架。据介绍，Groq 3 LPX与Rubin CPU和GPU一起使用可将每兆瓦推理吞吐量提高35倍，Groq 3 LPX将在今年下半年集成到下一代Vera Rubin AI工厂中。

Groq 3的加入，让GPU不再是英伟达数据中心加速器的唯一形态。此前，GPU阵营如何面对ASIC阵营的挑战，便是一个讨论多时的话题。英伟达去年底与Groq达成知识产权非独家协议，并将Groq创始人JonathanRoss、总裁SunnyMadra及其他核心团队成员收入麾下，也被解读为应对市场挑战的一种做法。低延迟推理是Groq LPU的特点。将LPU纳入产品组合，英伟达是想做什么？

按照黄仁勋的解释，每个来自不同规模模型的token都有所差别，对今天主要的token生产需求，Rubin还是一个重要承载，但有新的细分市场出现。模型在变大，上下文在变长，意味着推理速度要变得很快，结合新的芯片组合能让计算满足各种需求。

Ian Buck作出了他的解释。他告诉记者，Groq 3 LPU可以视为Rubin的“增强包”。LPU具备惊人的快速SRAM内存，能快速进行浮点计算。但它同时存在限制，如果仅用LPU来运行万亿参数模型，可能需要几十个机架，难以实现规模化，成本太高且基础设施效率太低。但如果通过一个LPX机架，让LPU与Rubin机架协同工作，则能结合两种芯片的特性，让所有注意力计算得以在GPU上完成、所有专家模型矩阵数学运算得以在LPU上完成。

英伟达超大规模和高性能计算副总裁Ian Buck

“对当前这一代聊天机器人或推荐系统，绝大多数AI市场将继续由Rubin服务，LPU不会替代这些场景。但对于下一代智能体工作负载而言，在万亿参数模型、数十万token上下文、速度每秒数千token的情况下，两种芯片的结合成为可能。” Ian Buck表示。

近期在数据中心中尝试不同芯片的不止英伟达一家。同为GPU厂商，AMD2月底与Meta达成的合作中包含一项特殊内容，即双方合作设计半定制芯片。本月早些时候，苏姿丰解释称，AI基础设施变得复杂，有多种工作负载，无论是训练还是推理、大模型还是小模型，都需要不同类型的计算，“在AI基础设施的下一阶段，没有一块单一的芯片能把所有事情做到最好，这已经是一个异构的世界。人们也需要考虑每瓦特算力的价格，希望大量运行AI工作负载时尽可能高效。计算需求中总会有ASIC的一席之地。”关于算力成本和AI工作负载多元化，苏姿丰的想法与黄仁勋的阐述不谋而合。

但随着芯片迈向异构化，ASIC是否将会越来越多地应用，并挑战具备可编程、通用性的GPU的地位？特别是当一些适应某种特定工作负载的ASIC产品具备速度和成本优势时。

在Ian Buck看来，这是关于如何平衡特定计算需求和平台可编程创新性的问题，关乎厂商愿意在多大程度上作出特定化设计。“我们可以单独为GPT-OSS做款ASIC芯片，在极端的环境下是可以拿着模型做芯片的。我确信这么做会有效率。但这个模型及其实现的方式将永远固化在硅片中，剥夺了世界上所有进一步优化它的方法，包括软件优化，让GPT-OSS无法被做得更快、更智能或进一步扩展。”他表示。

Ian Buck告诉记者，DeepSeek-R1一年前发布，此后模型效率越来越高，原因是全世界都学习了新的方法并让混合专家模型在GPU上跑得更高效，“之所以成为可能，是因为这些芯片都开放、可配置，人们找到执行混合专家模型的新方法，例如张量并行、宽专家并行、流水线并行，并从FP16迈向FP8、FP4。是平台的可编程性给了性能提升X倍的可能性，让人们能用通用GPU运行得更快并降低成本、增加收入。”

Ian Buck告诉记者一个案例：英伟达的400名软件工程师曾花约4个月时间，进行120万小时的GPU模拟运行，让DeepSeek-R1运行得更快。工程师找到了38种软件优化的方式，让DeepSeek-R1在同样GPU上运行的性能提升了4倍，也就是说，只通过软件优化就能让DeepSeek产生的效益增加4倍。

“我们可以针对不同工作负载做得非常特定化，甚至把模型硬编码在芯片上，但这样会错过构建新算法和新技术的机会。而我们发现，（如果基于可编程性平台）95%的优化和技术将适用于生态系统中的每个模型，帮助下一个模型变得更智能。”Ian Buck告诉记者。

就Groq是否也会纳入CUDA生态内，Ian Buck表示，虽然第一代的LPU还不行，但打算后续开放LPU的编程环境，后续将会讨论要通过CUDA还是其他方式来开放。

为物理AI打基础

英伟达在本届GTC中释放了不少物理AI方面的消息。机器人方面，此次英伟达推出Isaac仿真框架、Cosmos和Isaac GROOT开源模型，供行业开发、训练和部署机器人，其中Cosmos 3是首个统一合成世界生成、物理 AI 推理和动作模拟的世界基础模型。自动驾驶方面，英伟达推出推理 VLA 模型（视觉动作语言）Alpamayo 1.5，用于增强自动驾驶汽车推理能力。

英伟达在物理AI领域不再只提供算力硬件，而是做了越来越多软件方面的部署，包括深入模型层面并开源模型。

Rev Lebaredian告诉记者，就目前而言，开源比任何时候都重要，英伟达在开源研究和开源技术方面做了大量投入，特别是针对物理AI，因为无法由一家公司独自完成物理AI的构建。要让机器人的ChatGPT时刻到来，就必须要由大家一起贡献。而由于英伟达处于“AI的中心”，是生态中每个人的连接者，因此相关的工作要从英伟达开始。

就深入基础性的世界模型开发的原因，Rev Lebaredian向记者解释，大语言模型可以从互联网上获取语言，由AI计算机找出语言的模式，然后人们最终得到智能。英伟达正在用世界基础模型做类似的事。

英伟达Omniverse与仿真技术副总裁Rev Lebaredian

“世界基础模型学习世界的方式是基于物理定律而非语言规律。Cosmos开源，能让任何公司在计算机中运行并用于各种用途，除了模型，英伟达还提供创建模型所需的数据和框架、蓝图。” Rev Lebaredian表示，之所以这么做，是因为目前距离物理AI、机器人的完成态还很远，需要开源力量推动。目前很多世界模型厂商都将Cosmos用于训练、评估模型，让AI成为另一个AI的老师。

就物理AI不同领域的发展阶段，Rev Lebaredian则表示，对自动驾驶汽车来说，挑战已经从科学领域转入工程领域，只是扩大规模、探索如何让越来越多汽车上路行驶的问题。但对通用机器人而言情况截然不同，通用机器人的挑战出现在每个维度上，例如目前仍没有很好的机器人身体，没有很好的手，物理部分仍需在传感器、驱动机、电机和电池方面改进。

Rev Lebaredian表示，现在的情况是，即便建造了完美的机器人身体，机器人也不会用，还需要太多工程师花太多时间来编程机器人，让机器人做一件简单的事。现在业界正处于一个非常的时刻，开始有足够的技术让机器人大脑变得有用，即将跨过这个重要门槛，现在能看到机器人的ChatGPT时刻正在到来。现在技术和应用之间的连接已经在发生，例如利用推理能力可以让Cosmos中的智能体生成所需数据，用来训练机器人。

责任编辑：李志强

英伟达

Groq

芯片

声明：证券时报力求信息真实、准确，文章提及内容仅供参考，不构成实质性投资建议，据此操作风险自担

下载"证券时报"官方APP，或关注官方微信公众号，即可随时了解股市动态，洞察政策信息，把握财富机会。

用户评论

登录后可以发言

网友评论仅供其表达个人看法，并不表明证券时报立场

发表评论

暂无评论

时报热榜

换一换

热点视频

换一换