たねやつの木

Photographs, Keyboards and Programming

Qwen-Image-Edit-2509発表!nano-bananaのように高度な画像編集・複数画像の組み合わせを実現

こんにちは、たねやつです。

Alibaba CloudのQwenチームが、画像編集の新たなスタンダードとなりうる強力なモデル「Qwen-Image-Edit-2509」をリリースしました。

このモデルは、単なるオブジェクトの置き換えや背景変更にとどまらず、複数画像の合成、画像内のテキスト編集、さらにはControlNetによる精密な制御まで、テキスト指示一つで実現する驚異的な能力を秘めています。最近ではGoogleのnano-bananaで行えることが大抵Qwen-Image-Editでもできるようになる印象を受けます。

この記事では、「Qwen-Image-Edit-2509」が一体どのようなことが可能なのか、その核心的な機能に焦点を当てて詳しく解説していきます。

Qwen-Image-Edit-2509とは?

Qwen-Image-Edit-2509は、テキストプロンプト(指示文)に基づいて画像編集を行うために特化した、最新のAIモデルです。ユーザーが編集したい領域を手動で指定する「マスク」を作成する必要がなく、自然言語での指示だけで、モデルが文脈を理解し、高度な編集を実行します。

これにより、画像編集の専門知識がないユーザーでも、直感的にアイデアを形にすることが可能になります。

主な機能と性能

Qwen-Image-Edit-2509の能力は多岐にわたります。以下にその主な機能を紹介します。

マスク不要の直感的な編集

このモデルの最も基本的ながら強力な機能です。画像と「犬を猫に変えて」のような簡単なテキストプロンプトを与えるだけで、モデルが画像内の犬を自動で特定し、自然な形で猫に置き換えてくれます。

複数画像を組み合わせた高度な編集

Qwen-Image-Edit-2509は、最大3枚の入力画像を組み合わせて編集するという、非常に高度なタスクに対応しています。これにより、単純な合成やコラージュを超えた、一貫性のある画像を生成できます。

例えば、以下のような複雑な画像生成が可能です。

  • 主体 + アウトフィット: 人物の写真と、着せたい服(アウトフィット)の写真を渡し、自然にその服を着ているような画像を生成する。
  • 複数オブジェクトの合成: 「ソファの写真」「人物の写真」「犬の写真」といった複数の画像をインプットし、「ソファに座っている人とその隣にいる犬」のような、一貫性のある1枚のシーンを生成する。
  • 人物 + 商品: 人物写真と商品の写真を渡し、「この商品を人物に持たせて」と指示する。
  • 人物 + シーン: 人物の切り抜き写真と背景の風景写真を渡し、「この風景に人物を自然に配置して」と指示する。

画像内テキストの自由な編集

このモデルの特筆すべき機能の一つが、画像内のテキストを自在に編集できる能力です。看板の文字やTシャツのロゴなど、既存のテキストに対して以下のような変更を加えられます。これに関しては以前のモデルでもある程度は可能でした。

  • テキスト内容の変更
  • フォントスタイルの変更
  • 文字の色や材質(例:メタリック、木製など)の変更

ControlNet統合による精密な制御

Qwen-Image-Edit-2509は、ControlNetの入力をネイティブでサポートしています。これにより、深度マップ(depth)、輪郭マップ(canny)、骨格・ポーズ(keypoints)といった補助的な情報を与えることで、生成される画像の構図や被写体のポーズをより厳密にコントロールすることが可能です。

高い一貫性の保持

編集プロセスにおいて、顔のアイデンティティや商品の特徴、テキストのスタイルなどを高いレベルで維持する能力も、このモデルの優れた点です。これにより、元画像の要素を尊重しつつ、違和感の少ない高品質な編集結果を得ることができます。

まとめ

Qwen-Image-Edit-2509は、単なる「置き換え」ツールではなく、複数の画像を扱える合成能力、画像内テキストという新たな編集領域、そしてControlNetによる精密制御を兼ね備えた、次世代の統合的画像編集モデルと言えます。

マスク作成の手間を省き、自然言語で複雑な編集を可能にすることで、クリエイターやデザイナーはもちろん、誰もが高度な画像編集を手軽に試せる時代の到来を予感させます。

参考・引用