阿里通义 Qwen 团队发布了 Qwen-Image 的图像编辑版本:Qwen-Image-Edit。
Qwen-Image-Edit 基于 20B 的 Qwen-Image 模型进⼀步训练,成功将 Qwen-Image 的独特的文本渲染能力延展至图像编辑领域,实现了对图片中文字的精准编辑。
此外,Qwen-Image-Edit 将输⼊图像同时输⼊到 Qwen2.5-VL(实现视觉语义控制)和 VAE Encoder(实现视觉外观控制),从而兼具语义与外观的双重编辑能⼒。
如需体验最新模型,访问 Qwen Chat (chat.qwen.AI)并选择 “图像编辑” 功能。
Qwen-Image-Edit 的主要特性包括:
- 语义与外观双重编辑: Qwen-Image-Edit 不仅⽀持 low-level 的视觉外观编辑(如元素的添加、删除、修改等,要求图片其他区域完全不变),也支持 high-level 的视觉语义编辑(如 IP 创作、物体旋转、风格迁移等,允许整体像素变化但保持语义一致)。
- 精准⽂字编辑: Qwen-Image-Edit 支持中英文双语文字编辑,可在保留原有字体、字号、风格的前提下,直接对图片中的文字进行增、删、改等操作。
- 强⼤的基准性能: 在多个公开基准测试中的评估表明,Qwen-Image-Edit 在图像编辑任务上具备 SOTA 性能,是一个强大的图像编辑基础模型。
使用示例:
ModelScope:https://modelscope.cn/models/Qwen/Qwen-Image-Edit
Hugging Face:https://huggingface.co/Qwen/Qwen-Image-Edit
GitHub:https://github.com/QwenLM/Qwen-Image