阿里云,重大消息传来。
2月25日晚间,阿里云旗下视觉生成基座模型万相2.1(Wan)正式开源,此次开源采用最宽松的Apache2.0协议,14B和1.3B两个参数规格的全部推理代码和权重全部开源,同时支持文生视频和图生视频任务,全球开发者可在Github、HuggingFace和魔搭社区下载体验。
阿里云实现全模态、全尺寸大模型开源
据介绍,14B万相模型在指令遵循、复杂运动生成、物理建模、文字视频生成等方面表现突出,在权威评测集VBench中,万相2.1以总分86.22%的成绩大幅超越Sora、Luma、Pika等国内外模型,稳居榜首位置。1.3B版本测试结果不仅超过了更大尺寸的开源模型,甚至还接近部分闭源模型,同时能在消费级显卡运行,仅需8.2GB显存就可以生成高质量视频,适用于二次模型开发和学术研究。
在算法设计上,万相基于主流DiT架构和线性噪声轨迹Flow Matching范式,研发了高效的因果3D VAE、可扩展的预训练策略等。以3D VAE为例,为了高效支持任意长度视频的编码和解码,万相在3D VAE的因果卷积模块中实现了特征缓存机制,从而代替直接对长视频端到端的编解码过程,实现了无限长1080P视频的高效编解码。此外,通过将空间降采样压缩提前,在不损失性能的情况下进一步减少了29%的推理时内存占用。
万相团队的实验结果显示,在运动质量、视觉质量、风格和多目标等14个主要维度和26个子维度测试中,万相均达到了业界领先表现,并且斩获5项第一。尤其在复杂运动和物理规律遵循上的表现上大幅提升,万相能够稳定展现各种复杂的人物肢体运动,如旋转、跳跃、转身、翻滚等;能够精准还原碰撞、反弹、切割等复杂真实物理场景。
从2023年开始,阿里云就坚定大模型开源路线。
自2023年8月起,阿里云相继开源Qwen、Qwen1.5、Qwen2、Qwen2.5等4代模型,囊括了0.5B、1.5B、3B、7B、14B、32B、72B、110B等全尺寸,大语言、多模态、数学和代码等全模态,多次登上国内外权威榜单,已成为全球开源社区最重要的模型系列。阿里云千问(Qwen)衍生模型数量已超过10万个,是全球最大的AI模型家族。
随着万相的开源,阿里云实现了全模态、全尺寸大模型的开源。
值得一提的是,自2025年1月DeepSeek火爆出圈至今,开源正在成为国内外众多大模型的“必选项”。今年2月,字节豆包、昆仑万维、百度文心、阿里通义千问等均推出开源模型。
投入3800亿元建设云和AI硬件基础设施
阿里巴巴集团CEO吴泳铭在2月24日宣布,未来三年,阿里将投入超过3800亿元,用于建设云和AI硬件基础设施,总额超过去十年总和。这也创下中国民营企业在云和AI硬件基础设施建设领域有史以来最大规模投资纪录。
阿里这笔投入发生在两个重要时点之后。一是国内AI产业爆发;二是民营企业座谈会召开。吴泳铭表示:“AI爆发远超预期,国内科技产业方兴未艾,潜力巨大。阿里巴巴将不遗余力加速云和AI硬件基础设施建设,助推全行业生态发展。”
此前在2月20日,吴泳铭在财报会上表示,阿里将于近期发布基于千问Qwen2.5-MAX的深度推理模型。1月底,阿里发布了AI基础大模型千问旗舰版Qwen2.5-Max,在多项权威基准评测中,处于业界领先水平。目前,Qwen的全球衍生模型已突破9万个,全球排名第一。
2月25日,通义千问官方账号Qwen在海外社交平台发布了QwQ-Max-Preview(推理模型预览版),即将发布QwQ-Max正式版本、可部署在本地的较小版本以及官方App QwQ-Max。
Qwen同时宣布,即将发布QwQ-Max的正式版本,将在Apache 2.0许可下开源QwQ-Max和 Qwen2.5-Max。此外,还将提供规模较小的版本,例如 QwQ-32B,可部署在本地设备上。另外,将在发布官方QwQ-Max的同时发布安卓和iOS App。
目前,阿里云是亚洲第一的云计算公司,阿里巴巴通义千问大模型已成为全球顶尖的开源模型。3800亿元巨额资金继续投入,能极大提振相关产业信心,同时也表明阿里一如既往相信未来、投资未来。