证券时报网
王一鸣
2025-04-02 22:29
阿里巴巴发布了新一代端到端多模态旗舰模型Qwen2.5-Omni,号称具备全方位多模态感知能力,看听说写样样精通。
采用全新的Thinker-Talker双核架构,Thinker模块负责处理多模态输入并生成语义表征和文本内容,Talker模块则负责将这些信息转化为流畅的语音输出。这种架构实现了端到端的统一,支持实时音视频交互和流畅的语音生成。
能够无缝处理文本、图像、音频和视频等多种输入形式,并同时生成文本和语音输出。支持分块输入和即时输出,实现真正的实时交互。
已在Hugging Face、ModelScope、DashScope和GitHub等平台开源,方便开发者体验和使用。
相比现有方案,语音生成的自然度和稳定性更高。在音频能力上优于同等规模的Qwen2-Audio,与Qwen2.5-VL-7B保持同等水平。在语音指令理解方面表现出色,效果可媲美文本输入。
校对:苏焕文