英伟达业务扩充的信号变得明显。本届GTC大会上,英伟达发布的产品涵盖了数据中心加速器、机架、网络产品和多款开源模型。CUDA、GPU、LPU(语言处理单元)、AI工厂、机器人、自动驾驶、开源模型等关键词在英伟达CEO黄仁勋的演讲中被频频提及。这家以GPU闻名的公司,如今将其定义为一家包揽AI基础设施或AI工厂多个环节的厂商似乎更加合适。
即便只是在数据中心加速器这一环节,英伟达的产品类型也变得多样。Rubin平台在GPU之外,一款LPU也加入进来。原属于专用集成电路(ASIC)的LPU与通用的GPU站在不同阵营,但英伟达拿下Groq的授权后,开启了两种芯片的联合。
而在以大型云厂商为客户的60%业务之外,看起来更为庞杂的40%业务中,英伟达也落下新子。物理AI中的自动驾驶和机器人成为两个重要抓手。为了部署物理AI,英伟达不仅做硬件,还做自动驾驶平台和模型。
要理解今天的英伟达可能比以往更不容易,但这家牵动着诸多AI领域发展的公司到底在如何勾勒AI的未来,仍是值得探究的问题。GTC大会期间,第一财经记者与英伟达超大规模和高性能计算副总裁Ian Buck、Omniverse与仿真技术副总裁Rev Lebaredian分别进行了一场对话,试图解读英伟达做一些产品的思路和考虑,探讨了芯片的异构化现象、英伟达为物理AI铺设的棋局,以及为何机器人的“ChatGPT时刻”正在到来。

为何GPU仍占主导
以Groq的技术为基础,英伟达本届GTC推出了LPU芯片Groq 3和Groq 3 LPX 机架。据介绍,Groq 3 LPX与Rubin CPU和GPU一起使用可将每兆瓦推理吞吐量提高35倍,Groq 3 LPX将在今年下半年集成到下一代Vera Rubin AI工厂中。
Groq 3的加入,让GPU不再是英伟达数据中心加速器的唯一形态。此前,GPU阵营如何面对ASIC阵营的挑战,便是一个讨论多时的话题。英伟达去年底与Groq达成知识产权非独家协议,并将Groq创始人JonathanRoss、总裁SunnyMadra及其他核心团队成员收入麾下,也被解读为应对市场挑战的一种做法。低延迟推理是Groq LPU的特点。将LPU纳入产品组合,英伟达是想做什么?
按照黄仁勋的解释,每个来自不同规模模型的token都有所差别,对今天主要的token生产需求,Rubin还是一个重要承载,但有新的细分市场出现。模型在变大,上下文在变长,意味着推理速度要变得很快,结合新的芯片组合能让计算满足各种需求。
Ian Buck作出了他的解释。他告诉记者,Groq 3 LPU可以视为Rubin的“增强包”。LPU具备惊人的快速SRAM内存,能快速进行浮点计算。但它同时存在限制,如果仅用LPU来运行万亿参数模型,可能需要几十个机架,难以实现规模化,成本太高且基础设施效率太低。但如果通过一个LPX机架,让LPU与Rubin机架协同工作,则能结合两种芯片的特性,让所有注意力计算得以在GPU上完成、所有专家模型矩阵数学运算得以在LPU上完成。

英伟达超大规模和高性能计算副总裁Ian Buck
“对当前这一代聊天机器人或推荐系统,绝大多数AI市场将继续由Rubin服务,LPU不会替代这些场景。但对于下一代智能体工作负载而言,在万亿参数模型、数十万token上下文、速度每秒数千token的情况下,两种芯片的结合成为可能。” Ian Buck表示。
近期在数据中心中尝试不同芯片的不止英伟达一家。同为GPU厂商,AMD2月底与Meta达成的合作中包含一项特殊内容,即双方合作设计半定制芯片。本月早些时候,苏姿丰解释称,AI基础设施变得复杂,有多种工作负载,无论是训练还是推理、大模型还是小模型,都需要不同类型的计算,“在AI基础设施的下一阶段,没有一块单一的芯片能把所有事情做到最好,这已经是一个异构的世界。人们也需要考虑每瓦特算力的价格,希望大量运行AI工作负载时尽可能高效。计算需求中总会有ASIC的一席之地。”关于算力成本和AI工作负载多元化,苏姿丰的想法与黄仁勋的阐述不谋而合。
但随着芯片迈向异构化,ASIC是否将会越来越多地应用,并挑战具备可编程、通用性的GPU的地位?特别是当一些适应某种特定工作负载的ASIC产品具备速度和成本优势时。
在Ian Buck看来,这是关于如何平衡特定计算需求和平台可编程创新性的问题,关乎厂商愿意在多大程度上作出特定化设计。“我们可以单独为GPT-OSS做款ASIC芯片,在极端的环境下是可以拿着模型做芯片的。我确信这么做会有效率。但这个模型及其实现的方式将永远固化在硅片中,剥夺了世界上所有进一步优化它的方法,包括软件优化,让GPT-OSS无法被做得更快、更智能或进一步扩展。”他表示。
Ian Buck告诉记者,DeepSeek-R1一年前发布,此后模型效率越来越高,原因是全世界都学习了新的方法并让混合专家模型在GPU上跑得更高效,“之所以成为可能,是因为这些芯片都开放、可配置,人们找到执行混合专家模型的新方法,例如张量并行、宽专家并行、流水线并行,并从FP16迈向FP8、FP4。是平台的可编程性给了性能提升X倍的可能性,让人们能用通用GPU运行得更快并降低成本、增加收入。”
Ian Buck告诉记者一个案例:英伟达的400名软件工程师曾花约4个月时间,进行120万小时的GPU模拟运行,让DeepSeek-R1运行得更快。工程师找到了38种软件优化的方式,让DeepSeek-R1在同样GPU上运行的性能提升了4倍,也就是说,只通过软件优化就能让DeepSeek产生的效益增加4倍。
“我们可以针对不同工作负载做得非常特定化,甚至把模型硬编码在芯片上,但这样会错过构建新算法和新技术的机会。而我们发现,(如果基于可编程性平台)95%的优化和技术将适用于生态系统中的每个模型,帮助下一个模型变得更智能。”Ian Buck告诉记者。
就Groq是否也会纳入CUDA生态内,Ian Buck表示,虽然第一代的LPU还不行,但打算后续开放LPU的编程环境,后续将会讨论要通过CUDA还是其他方式来开放。

为物理AI打基础
英伟达在本届GTC中释放了不少物理AI方面的消息。机器人方面,此次英伟达推出Isaac仿真框架、Cosmos和Isaac GROOT开源模型,供行业开发、训练和部署机器人,其中Cosmos 3是首个统一合成世界生成、物理 AI 推理和动作模拟的世界基础模型。自动驾驶方面,英伟达推出推理 VLA 模型(视觉动作语言)Alpamayo 1.5,用于增强自动驾驶汽车推理能力。
英伟达在物理AI领域不再只提供算力硬件,而是做了越来越多软件方面的部署,包括深入模型层面并开源模型。
Rev Lebaredian告诉记者,就目前而言,开源比任何时候都重要,英伟达在开源研究和开源技术方面做了大量投入,特别是针对物理AI,因为无法由一家公司独自完成物理AI的构建。要让机器人的ChatGPT时刻到来,就必须要由大家一起贡献。而由于英伟达处于“AI的中心”,是生态中每个人的连接者,因此相关的工作要从英伟达开始。
就深入基础性的世界模型开发的原因,Rev Lebaredian向记者解释,大语言模型可以从互联网上获取语言,由AI计算机找出语言的模式,然后人们最终得到智能。英伟达正在用世界基础模型做类似的事。

英伟达Omniverse与仿真技术副总裁Rev Lebaredian
“世界基础模型学习世界的方式是基于物理定律而非语言规律。Cosmos开源,能让任何公司在计算机中运行并用于各种用途,除了模型,英伟达还提供创建模型所需的数据和框架、蓝图。” Rev Lebaredian表示,之所以这么做,是因为目前距离物理AI、机器人的完成态还很远,需要开源力量推动。目前很多世界模型厂商都将Cosmos用于训练、评估模型,让AI成为另一个AI的老师。
就物理AI不同领域的发展阶段,Rev Lebaredian则表示,对自动驾驶汽车来说,挑战已经从科学领域转入工程领域,只是扩大规模、探索如何让越来越多汽车上路行驶的问题。但对通用机器人而言情况截然不同,通用机器人的挑战出现在每个维度上,例如目前仍没有很好的机器人身体,没有很好的手,物理部分仍需在传感器、驱动机、电机和电池方面改进。
Rev Lebaredian表示,现在的情况是,即便建造了完美的机器人身体,机器人也不会用,还需要太多工程师花太多时间来编程机器人,让机器人做一件简单的事。现在业界正处于一个非常的时刻,开始有足够的技术让机器人大脑变得有用,即将跨过这个重要门槛,现在能看到机器人的ChatGPT时刻正在到来。现在技术和应用之间的连接已经在发生,例如利用推理能力可以让Cosmos中的智能体生成所需数据,用来训练机器人。