从ChatGPT的惊艳亮相到AI Agent的崛起,技术迭代的轨迹清晰可见——AI正从“对话”走向“行动”,从被动响应迈向主动执行。
在这场变革中,科技巨头们纷纷押注AI Agent,视其为下一代人工智能的核心形态。OpenAI、谷歌、微软等海外巨头动作频频,而中国的字节跳动、阿里、腾讯等大厂亦不甘示弱,凭借本土化场景加速追赶。
字节跳动旗下火山引擎总裁谭待近期在接受21世纪经济报道记者采访时表示,当前产业正从PC互联网、移动互联网向AI时代演进,核心变化是技术主体从“网页/APP”变为“智能体(Agent)”,开发范式从“程序员定义规则”转向“模型自主规划”。
他认为,随着模型深度思考、多模态理解及工具使用能力的提升,Agent将在客服、销售、科研、内部研发等场景实现闭环任务执行。大模型从“效率工具”转变为“生产力主体”,推动企业生产力升级。
巨头混战AI Agent
人工智能领域正在经历一场从“对话”到“行动”的范式转变。
OpenAI将AI Agent定义为:以大语言模型为大脑驱动的系统,具备自主理解、感知、规划、记忆和使用工具的能力,能够自动化执行完成复杂任务的系统。
传统的大语言模型(LLM)如ChatGPT虽然能够生成流畅的文本,但其交互模式仍高度依赖用户提供的清晰提示词(prompt),本质上是一种被动响应系统。
而AI Agent则代表了新一代人工智能形态。它的起源可以追溯到人工智能发展的早期阶段。早期的智能系统主要以简单的规则引擎和专家系统为主,能够在特定领域内解决一些预定义的问题,但缺乏自主性和适应性。随着机器学习、深度学习等技术的不断进步,智能体开始具备一定的学习和决策能力。
真正让AI Agent成为全球关注焦点,是2023年以ChatGPT为代表的生成式AI的爆发之后。2024年,一系列相关技术和应用推出,OpenAI、Anthropic、微软、谷歌等企业相继发布Agent进展。
在火山引擎总裁谭待看来,2025年可能是“Agent应用元年”。
在谭待看来,当前AI行业有两大趋势值得关注:一是开发范式转型,需更强的多模态模型、Agent平台工具(如MCPhub、Sandbox)及Prompt调优等技术。二是基础设施升级。计算主体从CPU转向GPU,数据量从TB级迈向EB级,多模态数据处理需求激增,安全领域需应对恶意AI的挑战。
记者注意到,今年以来,海外科技巨头继续加码AI Agent赛道。而在中国,字节跳动、阿里、腾讯、百度等大厂亦加大投入,凭借丰富的本土场景加速追赶。
今年4月,字节跳动启动“扣子空间”产品内测,5月9日正式开放测试。4月23日,纳米AI上线MCP万能工具箱,全面支持模型上下文协议(MCP)。4月25日,百度发布心响APP,这是首个移动端的通用超级智能体APP。5月22日,昆仑万维发布天工超级智能体SkyworkSuperAgents。5月30日,阿里巴巴开源了创新自主搜索AI Agent——WebAgent。
当前竞争格局已现分野。中信建投计算机首席分析师应瑛指出,对比当前海内外Agent布局现状:北美云厂商主要关注帮助客户高效部署模型和Agent,而B端厂商更聚焦打造Agent创建和管理平台;国内互联网大厂Agent布局仍延续互联网时代用户流量逻辑,通过类“Manus”的通用Agent产品抢占用户,B端企业则类似北美。
除了大厂,众多创业公司也在AI Agent领域积极探索。有的创业公司选择套壳工具模式,基于开源模型或大厂API开发轻量化应用,如文生图、代码辅助工具等。还有的企业选择垂类深耕,避开与大厂在通用Agent领域的正面竞争。
从市场空间来看,麦肯锡报告显示,2025年全球AIGC技术渗透率将突破40%。市场研究机构ResearchandMarket报告预计,AI智能体的市场规模将从2024年的51亿美元增长到2030年的471亿美元(约5年增长420亿美元),2024~2030年的复合年增长率为44.8%。
字节全力打造“AI云”
在这场混战中,字节跳动展现出独特的“技术+场景”生态化打法。
2023年,火山引擎主要聚焦于基础大模型的研发与优化;2024年,开始探索多模态能力的整合与应用;而进入2025年后,其战略重心已转向AI Agent的生态构建。
其中,豆包大模型作为字节的“技术大脑”,为旗下各类产品提供了基础的智能支持;而抖音、飞书等产品,则在短视频创作、企业协作等领域,将AI技术落地为具体的用户体验。
随着Agent概念的兴起,字节意识到,需要一个能够整合多种技术,为用户提供一站式智能服务的产品。
2025年4月,火山引擎推出了首款面向C端的通用Agent平台“扣子空间”。其定位是“一个通用的实习生配合各领域的专家”,旨在通过多模态交互、任务规划和工具调用,帮助用户完成各种复杂的任务。
从产品功能上看,“扣子空间”具备了典型的Agent特征。用户可以通过自然语言输入任务需求,扣子空间会利用豆包大模型的深度思考能力,将任务拆解为多个子步骤,并动态调用各种工具完成任务。
今年4月17日,火山引擎推出了“豆包·深度思考模型”“OSAgent解决方案”和“AI云原生推理套件”,构建了从底层模型到上层应用的完整链条。
6月11日,火山引擎发布豆包大模型1.6、视频生成模型Seedance1.0pro等新模型,并升级了Agent开发平台等AI云原生服务。
谭待表示,深度思考、多模态和工具调用等模型能力提升,是构建Agent的关键要素。同时,由于Agent每次执行任务都会消耗大量tokens,模型使用成本也要降下来,才能推动Agent的规模化应用。
通过技术和商业的双重创新,豆包1.6按“输入长度”区间定价,深度思考、多模态能力与基础语言模型统一价格。在企业使用量最大的0-32K输入区间,豆包1.6的输入价格为0.8元/百万tokens、输出8元/百万tokens,综合成本只有豆包1.5深度思考模型或DeepSeekR1的三分之一。Seedance1.0pro模型每千tokens仅0.015元,每生成一条5秒的1080P视频只需3.67元,为行业最低。
谭待透露,火山引擎定位“AI云”,聚焦AI原生技术,将内部服务豆包的经验(如模型、计算、数据安全能力)开放给行业,目前已在大模型服务市场占据领先份额,助力企业完成AI转型。
其AI Agent商业化呈现明显的“自上而下”特征。一方面,火山引擎持续攻坚头部行业,聚焦汽车、金融、消费电子等领域。另一方面,通过成本优化和低代码工具吸引初创企业,普惠中小客户。
从Force大会释放的信号看,其AI Agent战略已进入深水区。而科技巨头们能否真正打破“AI离企业远”的魔咒,或许取决于下一个问题:有多少客户愿意为“生产级Agent”买单。