通用大语言模型热度持续攀升,但如何在细分行业领域实现突围,成为众多大模型企业的攻坚重点。
近期由国内企业推出的新一代音乐推理大模型Mureka O1和Mureka V6,让音乐大模型赛道的竞争进入更多人视野。
AI歌手引发翻唱热潮
音乐大模型竞争始于2023年。一场由“AI歌手”引领的翻唱热潮迅速在网络上蔓延。孙燕姿、陈奕迅、林俊杰等华语乐坛巨星,纷纷有了AI替身,各大网络平台宛如“AI歌手复出演唱会”现场。
“AI歌手背后的技术支撑,是So-vits Svc AI音乐生成技术。”一位长期教网友“训练AI歌手”的业内人士莫西(化名)告诉记者。该技术仅需解析少量音频片段,就能精准模拟歌手音色,尽管在还原歌手个性化唱腔、演唱技巧及风格方面尚有不足,但近乎1:1的音色还原效果,点燃了全民音乐创作的热情。
随着音乐创作热度的提升,多家科技大厂和初创企业纷纷发布相关产品投身竞争。其中,尤以Suno V3和Udio的发布最为引人关注。
2024年3月24日,AI初创公司Suno推出V3音乐生成模型,这款模型仅需几秒,就能创作出2分钟的完整歌曲,被业界赞誉为“音乐ChatGPT时刻的到来”。
两首由Suno创作的中文歌曲——《桃花笺》和《宫保鸡丁》,都曾让国内音乐人发出赞叹。目前,Suno已经发布了V4版本,允许用户生成音质更高、更好听、时长更长(4分钟)的音乐。
而获得多家知名投资机构青睐的Udio,也推出了相关应用产品。借助社交媒体的传播,Udio生成的音乐作品在美国社交媒体上迅速走红。
除初创企业外,OpenAI的MuseNet、谷歌的MusicLM、Meta的MusicGen等也相继亮相。音乐爱好者只需输入几句歌词和风格要求,就能获取时长约两分钟的完整歌曲。这种技术革新,极大降低了音乐创作门槛,让更多人得以参与其中 。
中国科技企业竞逐全球
在国内,科技巨头同样敏锐地捕捉到这一赛道的潜力。昆仑万维是国内较早推出音乐生成模型的企业。2024年4月,昆仑万维发布第一代音乐生成模型Mureka V1(SkyMusic),收获了良好的市场反馈。经过一年多的升级优化,公司近期推出升级版Mureka O1音乐推理大模型,以及Mureka V6模型。
Mureka V6不仅支持纯音乐生成,还支持涵盖英语、中文、日语等10种语言的AI音乐创作。昆仑万维相关负责人告诉记者,团队在该模型中引入自研ICL(in-context learning)技术,进一步优化了声场效果,提升了人声质感和混音设计。
而Mureka O1基于Mureka V6推理优化而来,是全球首个引入CoT(Chain of Thought,思维链)的音乐模型。该模型在推理过程中融入思考与自我批判机制,显著提升了音乐品质、创作效率和灵活性。
和国外竞品类似,Mureka V6和O1支持多种音乐风格和情感表达。曲风囊括爵士、电子、流行等,情感维度则包含快乐、神秘、悲伤等多种情绪。
昆仑万维相关负责人告诉记者,Mureka O1作为全球首款音乐推理大模型,在性能方面超越了Suno,且模型登顶SOTA。(记者注:SOTA为“State-of-the-Art”的缩写,意为“当前最佳技术”或“最前沿水平”,特指某一领域内目前表现最优的方法、模型或技术成果。)
除了昆仑万维外,还有多家大厂推出基于大模型的音乐创作应用。国内字节跳动旗下的海绵音乐,以及趣丸科技旗下的天谱乐,均在这一赛道崭露头角。
海绵音乐是字节跳动推出的免费AI音乐创作分享平台,用户输入灵感语句或上传图片,就能生成个性化音乐作品,平台还提供丰富的创作工具,助力用户打造高质量音乐。天谱乐是趣丸科技在2024年7月发布的全球首个多模态配乐大模型。产品从一上线就全面接入了其旗下应用唱鸭APP,向所有用户开放。
国内音乐双巨头腾讯音乐和网易云音乐,也分别推出了X·Studio和启明星这样的产品,以追赶当前生成式人工智能的浪潮。但或许是巨头本身凭借强大的版权库,已经能够收获足够的市场份额和商业回报,所以外界感受到的是,这两家公司在AI音乐上的投入和活跃度始终不及上述代表性的玩家。
记者观察:细分领域需要什么样的大模型?从音乐赛道看AI创新的深层逻辑
在通用大模型陷入“百模大战”的当下,音乐大模型赛道的激战正为AI行业提供新的思考维度。昆仑万维Mureka O1、Suno V4等产品的崛起,揭示了细分领域大模型突围的关键路径:技术垂直深耕、场景深度融合与用户价值重构。
从发展阶段看,音乐大模型的技术竞争已从简单的音色模仿,转向系统性的创作能力升级。Mureka O1引入的CoT机制,将推理过程拆解为“构思—批判—优化” 循环,这种类人思维机制显著提升了音乐的连贯性和情感表达。对比早期 So-vits Svc技术仅能实现音色复刻,新一代模型已能处理复杂的编曲逻辑与多模态输入,如海绵音乐的“文字 + 图片”灵感生成模式,展现了技术从单点突破到系统能力构建的跃迁。
场景化落地考验“最后一公里”能力。音乐创作的民主化浪潮背后,是大模型对行业痛点的精准解决。Suno V3 的“秒级生成 + 免费开放”策略,将专业创作工具平民化;天谱乐与唱鸭APP的深度整合,则打通了从创作到分发的完整链路。这种场景化创新带来的不仅是用户体验提升,更是商业模式的重构——从传统的版权交易转向创作生态共建。
在大模型支持下愈发普及的音乐创作,则让价值创造需要超越“技术乌托邦”。事实上,当音乐大模型开始处理中文、日语等多语言歌词生成,其意义已超越技术本身。Mureka V6通过自研ICL技术优化声场效果,本质上是在构建跨文化的情感连接能力。这种能力的背后,是对细分领域用户深层需求的洞察:音乐创作不仅是技术输出,更是文化表达与情感共鸣的载体。
中国企业在这个领域的崛起,则显示出中国科技企业参与全球化竞争的差异化路径和独特的创新逻辑。昆仑万维通过“基础模型迭代 + 垂直场景优化”双轮驱动,实现技术突破与商业化平衡;字节跳动则依托生态优势,将AI音乐创作嵌入社交媒体传播链。这种“技术 + 生态”的组合拳,既避免了与国外模型的同质化竞争,又开辟了本土化的价值增长点。
音乐大模型的发展轨迹表明,细分领域的大模型竞争已进入“精耕时代”。未来的胜出者,不仅需要在技术上保持领先身位,更要在用户价值创造、场景深度融合和文化表达能力上实现突破。当AI开始理解音乐中的细微情感变化,它所重构的不仅是创作流程,更是人类对艺术表达的认知边界。这或许正是细分领域大模型的终极意义所在。
校对:王蔚
(点击图片进入报名页面)