こんにちは、たねやつです。
Alibaba CloudのQwenチームが、画像編集の新たなスタンダードとなりうる強力なモデル「Qwen-Image-Edit-2509」をリリースしました。
このモデルは、単なるオブジェクトの置き換えや背景変更にとどまらず、複数画像の合成、画像内のテキスト編集、さらにはControlNetによる精密な制御まで、テキスト指示一つで実現する驚異的な能力を秘めています。最近ではGoogleのnano-bananaで行えることが大抵Qwen-Image-Editでもできるようになる印象を受けます。
この記事では、「Qwen-Image-Edit-2509」が一体どのようなことが可能なのか、その核心的な機能に焦点を当てて詳しく解説していきます。
Qwen-Image-Edit-2509とは?
Qwen-Image-Edit-2509は、テキストプロンプト(指示文)に基づいて画像編集を行うために特化した、最新のAIモデルです。ユーザーが編集したい領域を手動で指定する「マスク」を作成する必要がなく、自然言語での指示だけで、モデルが文脈を理解し、高度な編集を実行します。
これにより、画像編集の専門知識がないユーザーでも、直感的にアイデアを形にすることが可能になります。
主な機能と性能
Qwen-Image-Edit-2509の能力は多岐にわたります。以下にその主な機能を紹介します。
マスク不要の直感的な編集
このモデルの最も基本的ながら強力な機能です。画像と「犬を猫に変えて」のような簡単なテキストプロンプトを与えるだけで、モデルが画像内の犬を自動で特定し、自然な形で猫に置き換えてくれます。

複数画像を組み合わせた高度な編集
Qwen-Image-Edit-2509は、最大3枚の入力画像を組み合わせて編集するという、非常に高度なタスクに対応しています。これにより、単純な合成やコラージュを超えた、一貫性のある画像を生成できます。
例えば、以下のような複雑な画像生成が可能です。
- 主体 + アウトフィット: 人物の写真と、着せたい服(アウトフィット)の写真を渡し、自然にその服を着ているような画像を生成する。
- 複数オブジェクトの合成: 「ソファの写真」「人物の写真」「犬の写真」といった複数の画像をインプットし、「ソファに座っている人とその隣にいる犬」のような、一貫性のある1枚のシーンを生成する。
- 人物 + 商品: 人物写真と商品の写真を渡し、「この商品を人物に持たせて」と指示する。
- 人物 + シーン: 人物の切り抜き写真と背景の風景写真を渡し、「この風景に人物を自然に配置して」と指示する。


画像内テキストの自由な編集
このモデルの特筆すべき機能の一つが、画像内のテキストを自在に編集できる能力です。看板の文字やTシャツのロゴなど、既存のテキストに対して以下のような変更を加えられます。これに関しては以前のモデルでもある程度は可能でした。
- テキスト内容の変更
- フォントスタイルの変更
- 文字の色や材質(例:メタリック、木製など)の変更
ControlNet統合による精密な制御
Qwen-Image-Edit-2509は、ControlNetの入力をネイティブでサポートしています。これにより、深度マップ(depth)、輪郭マップ(canny)、骨格・ポーズ(keypoints)といった補助的な情報を与えることで、生成される画像の構図や被写体のポーズをより厳密にコントロールすることが可能です。

高い一貫性の保持
編集プロセスにおいて、顔のアイデンティティや商品の特徴、テキストのスタイルなどを高いレベルで維持する能力も、このモデルの優れた点です。これにより、元画像の要素を尊重しつつ、違和感の少ない高品質な編集結果を得ることができます。
まとめ
Qwen-Image-Edit-2509は、単なる「置き換え」ツールではなく、複数の画像を扱える合成能力、画像内テキストという新たな編集領域、そしてControlNetによる精密制御を兼ね備えた、次世代の統合的画像編集モデルと言えます。
マスク作成の手間を省き、自然言語で複雑な編集を可能にすることで、クリエイターやデザイナーはもちろん、誰もが高度な画像編集を手軽に試せる時代の到来を予感させます。
参考・引用
- Hugging Face: Qwen/Qwen-Image-Edit-2509
- ComfyUI Blog: WAN2.2 Animate & Qwen-Image-Edit 2509 Native Support
- ComfyUIで試す場合は、バージョン0.3.60へのアップデートが推奨されています。(デスクトップ版は近日対応予定。更新されたらこのブログでもトライしてみます!)