新画像生成AI「Qwen-Image」登場！画像編集能力はFLUXを超えるか？

こんにちは、たねやつです。

画像生成AIの世界に、また一つ強力なモデルが登場しました。Alibaba Cloudが開発した「Qwen-Image」です。特に、画像内のテキストを自然に描画する能力と、プロンプトに基づいた画像編集能力が非常に高いと話題になっています。

今回は、この新しい画像生成AI「Qwen-Image」について、現在公開されている情報をまとめてみました。

Qwen-Imageは、Alibaba CloudのQwenシリーズから発表された、テキストと画像の両方を扱うマルチモーダル基盤モデルです。特に以下の2つの点で、既存のモデルを凌駕する可能性を秘めていると注目されています。

従来の画像生成AIは、画像内に意味のあるテキスト（特に複数行の文章や複雑な漢字）を正確に描画するのが苦手でした。しかし、Qwen-Imageはこの課題を克服し、英語や中国語など複数の言語で、非常に自然かつ高品質なテキストを画像内にレンダリングすることができます。

公式ブログでは、DALL-E 3やMidjourney v6といった主要なモデルとの比較画像が公開されており、そのテキスト品質の高さは一目瞭然です。

もう一つの大きな特徴が、その強力な画像編集能力です。

海外の掲示板サイトRedditでは、プロンプト指示だけで画像内のオブジェクトの色やスタイルを自由自在に変更したり、背景を差し替えたりするデモが投稿され、「画像編集において、最近話題になったFLUXやKontext Proよりも優れているのではないか」と大きな話題を呼んでいます。

単純な物体を置き換えるだけでなく、画像の全体的な雰囲気や意味を保ちながら、違和感なく編集できる点が驚異的です。

これだけの高性能を発揮するQwen-Imageですが、ローカル環境で動かすには相応のハードウェアが要求されるようです。

コミュニティでは、「モデルをフルで動かすには80GB以上のVRAMを持つGPUが必要になるかもしれない」と推測されており、多くの個人ユーザーにとっては、そのままの形で利用するのは少しハードルが高いかもしれません。

そのため、より少ないVRAMで動作可能な、軽量化されたモデル（量子化版など）の登場が待たれます。

ここで一点注意が必要です。

現在公開されているのは、テキストから画像を生成する基本モデルのみです。Redditで話題となっている、驚異的な画像編集機能を持つモデルは、まだリリースされていません。

とはいえ、これだけの性能を持つモデルが控えていることは間違いなく、今後の正式リリースが非常に楽しみです。

Qwen-Imageは、特に「画像内テキスト」と「画像編集」という、これまで多くのモデルが苦手としてきた領域でブレークスルーを起こす可能性を秘めた、非常にエキサイティングなモデルです。

画像編集モデルが公開されれば、クリエイティブな作業がさらに効率化・高度化することは間違いないでしょう。今後の動向から目が離せません！

たねやつの木