每日生活圈2025年08月05日 07:02消息,阿里通义千问深夜开源Qwen-Image,首个图像生成基础模型,支持中英双语。
8月5日消息,今天凌晨,阿里通义千问正式开源了Qwen-Image,这是一个参数量为20B的MMDiT模型。 此次开源表明阿里在视觉大模型领域持续加大投入,进一步推动技术开放与生态建设。Qwen-Image的发布不仅丰富了通义系列模型的布局,也为开发者和研究者提供了更强大的工具支持。随着大模型技术的不断演进,开源举措有助于加速行业创新,促进技术成果的共享与应用落地。

这是通义千问系列中首个图像生成基础模型,其在复杂文本渲染和精确图像编辑方面取得了显著进展。这一突破不仅体现了技术上的进步,也预示着人工智能在视觉内容生成领域的应用将更加广泛和深入。随着这类模型的不断优化,未来在设计、教育、媒体等多个领域都可能迎来新的变革。

据了解,该模型致力于增强AI在两个关键场景中的表现:复杂的文本生成与精确的图像处理。

功能亮点:

强大的文字渲染能力(本次开源)

效果领先:在多个文本测评榜单中,文字渲染均获得SOTA。

原生渲染:文字是图像生成时直出的,而非后期添加,效果更真实。
功能全面:支持中英双语、多变字体、超长段落、超小文字,并可实现复杂的多位置图文布局。 在当前的媒体环境中,内容呈现方式正变得越来越多样化。支持中英双语、多种字体选择,以及对超长段落和极小字号的支持,使得信息表达更加灵活。同时,复杂的多位置图文布局也提升了内容的视觉效果与阅读体验。这些功能不仅满足了不同用户的需求,也为内容创作者提供了更大的发挥空间。在信息爆炸的时代,如何在保证内容质量的同时提升传播效率,是媒体平台需要持续探索的方向。
基础扎实:除了文字表达,模型在人物情绪的传达、细节的描绘以及多种风格的呈现方面也展现出卓越的能力。
精准的图像编辑能力(即将发布)
效果稳定:多个图像编辑测评榜单SOTA。
链式编辑:在多轮连续修改后,仍能保持主体ID的一致性。
文字编辑:可以编辑图像中的文字。
复杂编辑:可编辑人物姿势,提取图像纹理等。
通义千问在多个公开基准测试中对Qwen-Image进行了全面评估,涵盖通用图像生成领域的GenEval、DPG和OneIG-Bench,以及图像编辑相关的GEdit、ImgEdit和GSO。
Qwen-Image在各项基准测试中均表现出色,达到了领先水平,充分体现了其在图像生成和图像编辑方面的卓越能力。
此外,在LongText-Bench、ChineseWord和TextCraft等文本渲染测试中,Qwen-Image展现出卓越的性能,尤其在中文文本渲染任务中,显著超越当前最先进的模型。
Qwen-Image在通用图像生成方面表现优异,能够支持多种艺术风格,除了文本处理之外,其图像生成能力也备受认可。这种多样的风格支持,使得它在创意设计、视觉表达等领域具备更广泛的应用潜力。
Qwen-Image在图像编辑领域提供了丰富的功能,包括风格迁移、内容增删改、细节优化、文字调整以及人物姿态变换等操作,使得普通用户也能轻松完成以往需要专业技能才能实现的图像编辑任务。 我认为,这类技术的普及极大降低了图像处理的门槛,让更多人能够参与到视觉创作中来。随着AI技术的不断进步,工具的功能越来越强大且易用,这不仅提升了用户的体验,也为创意表达提供了更多可能性。未来,这样的工具或将更深入地融入日常生活与工作场景中。