2025年8月底,作为A股较为稀缺的AI芯片标的,寒武纪(688256.SH)盘中一举超过贵州茅台,成为A股股价最高的个股。回望过去一年,这是A股最受瞩目的时刻之一。时间来到年末,接连迈向上市的国产GPU厂商,续上了这把“火”。
最早登陆科创板的是摩尔线程(688795.SH),接着是沐曦股份(688802.SH)。两家AI芯片厂商在上市首日股价分别大涨超4倍、6倍,“中一签浮盈逼近40万元”的沐曦创造了近十年A股新股上市首日单签盈利纪录。高高“昂起”的股价还在诉说着市场对它们的期待。12月24日A股股价排行中,寒武纪位居第二,沐曦和摩尔线程分列第四和第六,每只股票价格都在600元以上。
这把“火”还可能烧到港股。壁仞科技和天数智芯近日接连通过港交所聆讯,冲刺港股“GPU第一股”。
这四个GPU厂商都在2015年~2020年间成立,如今迎来市场对国产AI芯片崛起期待值最高的时候。但一些迹象表明,迈过上市门槛后,挑战不会变少。英伟达H200芯片近日被批准进入中国市场,为算力国产化叙事增添了新的变数。几家GPU厂商的市占率都不高,则意味着这场市场厮杀,还刚刚站上起点。要如何才能被更多客户采用,是它们接下来必须回答的问题。
五大客户集中度高达九成
一名市场研究机构分析师告诉记者,市场对国产AI芯片抱有高期待,是这些厂商希望尽快上市的背景。现实因素是:海外AI芯片进口长期的不确定性增大了国产芯片的机会,但市场不希望国内厂商一家独大。在主要的ASIC(专用集成电路)厂商华为之外,未来至少会有一家AI芯片厂商跑出来。
但哪家会跑出来,仍需打一个问号。
近期多家GPU厂商公布招股书,披露了一些经营数据,显示这些厂商仍陷于亏损,市占率差距也不大。
2022年至2024年,摩尔线程、沐曦、壁仞科技、天数智芯的年收入分别从0.46亿元、42.64万元、49.9万元、1.89亿元增长到4.38亿元、7.43亿元、3.37亿元、5.39亿元。营收增长的同时,三年间摩尔线程、沐曦、壁仞科技、天数智芯分别亏损超50亿元、超30亿元、超47亿元、超22亿元。

这些GPU厂商的主要收入都来自AI数据中心相关的产品。今年上半年摩尔线程前五大客户采购的都是AI智算集群设备或AI智算板卡。天数智芯的产品包括训练和推理的通用GPU产品、通用GPU服务器及集群。此外,沐曦主要收入来源是训推一体芯片曦云C500系列,壁仞数据中心级GPU BR106是今年上半年的销售主力。
这些厂商与AI训练和推理场景强相关,但在客户集中度高的同时,客户变动颇大,显示收入具有一定的不稳定性。例如,2024年,沐曦、壁仞科技、摩尔线程、天数智芯来自前五大客户的收入占比均超过了七成,甚至最高能占到近99%,今年上半年壁仞科技、摩尔线程该比例仍在90%以上,沐曦第一季度在80%以上。天数智芯上半年降到38.6%,但该公司表示,这与季节性有关,主要客户倾向于下半年大量采购,在可预见的未来,经营业绩可能还会继续取决于对数量相对较少的客户销售。
这些大客户还在剧烈变动中,2024年沐曦的前五大客户中,只有一家进入今年第一季度的前五大客户名单。壁仞科技、天数智芯2024年的五大客户中,仅一家进入今年上半年的名单。
虽然市场集中度高,但市占率尚未拉开差距。据招股书和对问询函的回复,四家厂商中,沐曦在2024年中国AI加速器市场中的份额约1%。2024年,摩尔线程AI智算产品、图形加速产品及智能SoC产品在国内市场相应细分领域的市场占有率不足1%,壁仞科技在中国智能计算芯片市场中的份额为0.16%,天数智芯在国内通用GPU市场中的市场份额为0.3%。
壁仞科技还称,中国智能计算芯片市场中,除一家美国GPU公司和一家中国ASIC公司外,没有市场份额超1%的主要参与者。
不论从营收、净利润数据、主要客户情况还是市占率表现看,这四家刚上市或准备上市的GPU厂商中,都尚未出现佼佼者,它们都站在大规模商业化的初期。
从产品性能上,也有业内人士反馈,几家主要的国产GPU厂商的产品性能尚未拉开明显差距。一家服务器厂商高管告诉记者,多家近期上市或准备上市的国产AI芯片厂商,它们在单芯片上的各项性能差距不太大。国内一家高校的计算机相关科研人员刘洋(化名)告诉记者,他在云平台上使用过摩尔线程S4000和沐曦C500,也没有发现两者性能存在很大差异。
走过上市的高光时刻,这些GPU厂商接下来还要用产品说话,证明自身独特价值。
国产算力市场徐徐展开
业内对AI算力国产化的进程有预计。
天数智芯称,国内通用GPU市场国产化率从2022年的2%提升至2024年的3.6%,并预计2029年通用GPU国产化率将超50%。壁仞科技则预计,中国企业智能计算芯片的市场份额将从2024年的约20%提升至2029年的约60%。
在近日举办的摩尔线程首届MUSA开发者大会上,记者看到,有一些对国产算力感兴趣的从业者和高校学生前来了解。一名来自西安的开发者告诉记者,他的公司没有采购到英伟达数据中心算力卡,而是使用英伟达的消费级显卡,为了寻找可替代的产品,公司派他前来了解国产算力卡。
高校科研人员也开始使用国产算力。在刘洋的印象里,国产AI芯片厂商与高校的合作更多是在近两年内开始的。他的学校与摩尔线程、沐曦有生态合作,芯片厂商发放免费算力券,供学生在云平台上使用。
“学生可能之前没有接触过国产算力,接触后,未来就业时就可能将国产卡纳入考虑范围。还有一些工作单位需要使用国产卡,也会招聘熟悉国产算力的学生。”刘洋告诉记者,他发现,虽然国产卡与英伟达生态兼容有时会出现一些问题,但深度学习任务基本使用PyTorch软件,国产卡已支持适配PyTorch,目前国产算力卡的生态已得到一定的完善。
基于国产算力的性价比等原因,云或数据中心厂商也对国产算力感兴趣。
优刻得服务器中心及AI算力负责人丁振雷告诉记者,优刻得已采购了3~5家国产芯片厂商的产品,业内一方面是支持国产算力,另一方面也在深入对接适配这些算力,对比几家主要厂商的产品。他表示,公司在推动供给来源多元化,只要能用国产产品的环节,公司就提早适配,保证国产产品在性能优化到一定程度的时候能快速引入。
“客户的核心目标是更高的性价比,因此公司一直在比对各种卡。”丁振雷告诉记者,在国产算力落地应用方面,国资企业走在前面。
上述国产服务器厂商的高管则告诉记者,国产算力生态被接受是一个常态化、长周期的过程,被接受程度在持续快速提升。该公司在业务上已能感知到,以AI为代表的前沿领域越来越关注国产算力。
“去年国内互联网厂商就开始购买国产算力,今年这部分需求的增速比较快。这些国产算力以推理业务为主。但从采购这些芯片用于测试到实际应用还有一个过程,不会一上来就大规模切换到业务系统使用。”上述服务器厂商高管表示。
互联网厂商中,腾讯9月已表态,腾讯云依托异构计算平台整合多种芯片资源,向外界提供AI算力,该平台已全面适配主流国产芯片。“今天我们的GPU计算资源越来越异构,很多国产芯片在不断提升计算性能。”腾讯集团副总裁、腾讯云总裁邱跃鹏表示。
英伟达H200成新变量
年底,英伟达较先进的数据中心芯片有望再次进入中国市场的消息,在国内的AI算力生态中激起涟漪。
美国政府将允许英伟达向中国出售H200 AI芯片,对每颗芯片收取25%费用。近日还有市场消息称,英伟达已告知中国客户,计划于明年2月中旬向中国客户交付AI芯片H200。就向中国客户供应H200的进展,英伟达发言人则向记者回应称,英伟达正在持续管理供应链,“向中国授权客户销售H200不会影响我们向全球客户供货的能力。”
对国产算力生态而言,H200进入国内市场,给算力芯片国产化带来了新的变数。
“在超大规模模型训练领域,国产芯片与国际领先水平仍有差距,因此在H200有望在中国市场恢复销售的背景下,该买的不要犹豫。”一家国产GPU厂商的高管告诉记者。
但一些业内人士同时认为,AI芯片国产化趋势长期不受干扰。沐曦联合创始人、CTO兼首席软件架构师杨建表示,当前市场对供应链安全的重视已超越单纯的技术参数。互联网大厂和央国企都意识到,一旦供应链中断,整个生态就可能崩塌。面对英伟达H200重返市场的挑战,客户的选择逻辑正从“技术最优”转向“安全与成本综合考量”,这为国产芯片提供了关键窗口期。
丁振雷也告诉记者,短期内,在一些主要场景中,客户会考虑芯片算力指标,但长期、战略上看,H200销往中国对国产算力的发展不会有明显影响,因为业内采购时还是会考虑国产算力的性价比因素。
要应对英伟达的挑战,国内GPU厂商还是要往提高性能的方向努力。
在科研场景中,刘洋告诉记者,国产芯片与英伟达的差距仍在。目前他的实验室使用最多的还是英伟达卡。这是因为实验室环境对卡兼容性等要求较高,而且一些实验还需要与其他实验对比,算力平台需要对齐以保证可比性。
“大模型涉及细颗粒度优化,需深入硬件底层,例如训练考验卡间互联带宽,推理则涉及量化技术,而目前量产的国产卡对低精度计算的支持还达不到英伟达的水平。从这个角度看,通过适配PyTorch,学生可能用不出英伟达和国产卡的太大差异,但若在大模型场景进行细颗粒度优化,会更直观呈现出英伟达和国产算力卡的差异。”刘洋告诉记者。
国内GPU厂商已在推动迭代。摩尔线程近日发布了新的GPU架构花港以及新芯片。其AI智算板卡支持的计算精度范围有所扩大,上一代板卡S5000开始支持FP8精度,新一代的华山芯片则开始支持FP4。
此外,摩尔线程创始人、董事长兼CEO张建中表示,S5000在DeepSeek-R1全量模型分布式推理场景中,Prefill Only、Decode单卡吞吐量分别是英伟达H20等常见芯片产品的约2.5倍、1.3倍。新一代华山的浮点计算能力、高速互联带宽则介于英伟达Blackwell和Hopper之间。
海外大模型训练走向十万卡集群的情况下。除了单芯片性能,国产芯片也在走向更大集群。张建中则表示,2024年摩尔线程推出第一代千卡集群,今年达到1万卡,接下来还要做10万卡、50万卡、100万卡。
业内也在推出一些系统化方案并强化合作。以集群方案超节点为例,年内芯片厂商壁仞科技、华为,光芯片厂商曦智科技以及服务器厂商新华三、中兴通讯、中科曙光等都推出或与业界合作推出了超节点方案。中科曙光还联合20余家产业链企业发布AI计算开放架构,以降低AI集群研发门槛、避免重复投入。
丁振雷告诉记者,国产算力需要共同的软件生态,上层应用需要非常方便地接入这些算力,这基本已是行业共识。
“业内竞争已不限于单芯片的性能竞争,各家也逐渐走向生态竞争。这就是为什么现在芯片厂商也在做系统,系统厂商也在做系统,大家越来越多在拼软实力了,包括产品化能力、软件调优和完善度、系统级产品化能力。业内也在寻求合作,整个国产算力生态需要大家抱团来做。”上述服务器厂商高管告诉记者。