据文生图领域权威的第三方榜单Artificial Analysis竞技场最新发布消息,字节跳动Seed团队图像生成模型Seedream 3.0综合性能已追平文生图SOTA模型GPT-4o,并超越了Recraft V3、Ideogram、Imagen 3、Midjourney V6.1等模型,进入全球第一梯队。
据悉,Seedream 3.0是字节近日发布的新一代文生图主力模型,目前已在即梦、豆包等平台全量开放。值得注意的是,字节豆包大模型团队今日发布了Seedream 3.0文生图模型技术报告。报告指出,Seedream 3.0是一个原生高分辨率、支持中英双语的图像生成基础模型,对比Seedream 2.0,这一版本的整体性能表现有较大提升,尤其在分辨率、生图结构准确性、数量准确性、多物体属性关系、小字生成与排版、美感效果、真实度等方面有所突破。
具体而言,Seedream 3.0不仅无需后期处理就可直接输出2K分辨率图像,从手机端到巨幅海报场景的视觉需求均可满足,适配多比例场景,而且还可实现3秒左右快速生成高品质图像,大幅提升海报设计、视觉创意等创作效率。同时,Seedream 3.0优化了小字体高保真生成、多行文本语义排版等业界难题,让AI具备商业级图文设计能力,并增强了指令遵循,人体和物体结构崩坏得到改善,且进一步弱化了出图的AI感。
值得一提的是,Seedream 3.0在3秒左右即可快速生成1K分辨率的高品质内容,相比之下,业界同类模型生成该分辨率内容的耗时基本在10秒以上,而此前文生图SOTA模型GPT-4o平均耗时为77秒。
豆包大模型团队介绍称,Seedream 3.0研发始于2024年末,通过调研设计师等群体的实际需求,团队不仅将图文匹配、结构、美感等行业共识性指标纳入攻坚方向,同时,也将挑战小字生成与复杂文本排版、2K高清直出、快速图片生成等难题作为核心目标。
针对2K分辨率、多尺寸图像直出能力实现,团队借助了Transformers架构对变长输入序列的灵活处理能力,在从512×512到2048×2048的多种分辨率和不同长宽比上混合训练,让模型实现不经过额外深加工的高清直出,同时也支持多种分辨率输出。
为支持快速生成高品质图像,模型采用自研推理加速算法,依靠一致性噪声预测,叠加重要时间步采样,最终实现对模型的无损加速。在保障图文匹配、美学质量、结构准确度等指标的前提下,Seedream 3.0生成1K分辨率图像仅需3秒。
Seedream 3.0还大幅提升了小字体高保真生成、多行文本语义排版表现,满足设计师对海报设计的需求。团队在预训练阶段,引入跨模态旋转位置编码,补足传统方法模态特征对齐短板,进一步加强了文字渲染能力。
针对海报设计,Seedream 3.0模型可实现小字生成、多行文本排版
相比此前的2.0版本,Seedream 3.0在数据和RLHF(人类反馈强化学习)阶段也使用了全新方案。团队采用缺陷感知的训练策略,使有效数据集扩充超过20%,同时设计了精准的美感描述维度,并进一步拓展RLHF奖励模型,使Seedream 3.0具备多维度质量判别能力,综合性能大幅提升。
豆包大模型团队表示,未来团队计划探索更高效的结构设计,包括构建效果更好、成本更低、生成更快的文生图模型,并进一步拓展模型对世界知识的理解,赋予模型交织生成等能力。同时,团队也计划探索数据、模型量级、奖励模型等维度的Scaling现象(即随着模型规模、数据量或计算资源的增加,模型的性能得到显著改善),将认知积累应用于下一代模型中。
校对:赵燕