“我们正在全面进入AI应用大规模落地的阶段,需要的是更高性价比的推理芯片。”云天励飞董事长兼CEO陈宁强调。
2月3日,云天励飞正式举办“大算力芯片战略前瞻会”,首次对外公布未来三年的大算力AI推理芯片战略布局,将核心研发资源集中于攻克大模型落地的“成本壁垒”,通过底层架构创新,力争实现百万Tokens推理成本降低100倍以上的目标,推动AI从技术尝鲜走向普惠生产力。
加速布局推理算力
当前,全球算力产业的风向标正加速向推理侧倾斜。
谷歌在2025年4月发布第七代TPU“Ironwood”时,明确将其定位为“面向推理时代”的基石,强调在大规模推理与能效上的系统化优化。
同时,产业整合也在加速。2025年12月,英伟达与推理芯片企业Groq达成非独占许可安排,通过支付许可费的方式获得了Groq推理技术的授权,并吸纳其核心工程人才团队加入,强化推理与实时工作负载能力。
云天励飞高管指出,推理侧竞争已不再单纯是“把模型做得更强”的参数竞赛,而是“让应用跑得更久、更稳、更便宜”的效能竞赛,单位推理成本与交付效率已成为规模化落地的最大门槛。
“公司目标把百万TOKEN的成本每年降低100倍,到2030年我们要实现百亿TOKEN一分钱人民币,只有这个时候才是真正的一场工业革命。”陈宁表示。
架构创新
面对推理时代系统级协同的需求,云天励飞确立了GPNPU技术路线,并提出了“GPNPU=GPGPU+NPU+3D堆叠存储”的组合,兼顾通用计算的“通用性”与NPU的“高效性”,在工程层面解决可迁移、可部署、可持续降本三大难题。
具体来看,在通用生态层面,云天励飞的GPNPU架构将兼容CUDA架构,实现一行代码完成CUDA程序兼容,降低了进入生产系统的门槛。
在推理能效层面,NPU能够实现更高的计算效率和能效比,面对大模型推理这种高度结构化、可被体系化优化的负载,专用化设计带来的能效优势更容易转化为真实成本优势,这也是国际厂商持续加码专用路线的重要原因。
针对行业公认的“内存墙”瓶颈,云天励飞正深度研发3D堆叠存储及更前沿的互连技术,以提升带宽与能效,降低推理时延。
在架构工程与产品化路径上,云天励飞采取“算力积木”架构,即通过Chiplet扩展与互连思路,将标准计算单元进行模块化封装与组合,让算力像搭积木一样按需扩展,形成从边缘到更大规模推理的弹性产品形态;同时,围绕真实业务负载持续迭代,逐项击穿推理链路中的成本与时延瓶颈,最终形成可复制交付的综合最优解。
打造全场景算力矩阵
面向未来三年的规划,云天励飞CTO李爱军表示,将不遗余力投入大算力芯片DeepVerse的研发,围绕推理成本、时延与吞吐的核心矛盾持续迭代,并按产品节奏梯度覆盖市场需求。
云天励飞路线图将对标国际主流平台的代际演进,聚焦长上下文预填充(Prefill)、低时延解码(Decode)等关键推理阶段的系统优化,在真实负载下持续兑现“更便宜、更稳定、更易部署”的交付目标。
陈宁在演讲中将公司核心竞争力总结为技术、产能、生态、市场、资本五大关键要素。这五大维度的协同共振,不仅是云天励飞应对行业激烈竞争的底气,更为未来三年战略的稳步落地提供了坚实的体系化保障。
去年,云天励飞进行“1+4”架构调整:“1”指聚焦于AI大算力推理芯片,“4”则是四大事业部。作为生态构建者,四大事业部旨在解决芯片从“研发生产、优化打磨到市场推广”的核心难题。其中,政企事业部作为基石,将凭借深厚的行业经验,将战略重点转向推理设备和智算中心的建设。此外,云天励飞还计划打造区域级“千卡集群”,树立城市AI算力赋能的新标杆。
针对行业普遍关注的供应链安全问题,云天励飞高级副总裁、CFO兼董秘邓浩然特别强调,公司目前是国内屈指可数手握充足国产产能保障的企业之一,这将为公司后续芯片的大规模量产与交付提供极高的确定性。