ComfyUIでqwen-imageをいろいろ試してみる。RTX3060での処理時間や限界など

こんにちは、たねやつです。

今回は、画像生成AI「qwen-image」をComfyUIで細かく試してみました。私が使用しているグラフィックボードはNVIDIA GeForce RTX 3060なのですが、どのくらい快適に動作するのか、設定を調整しながら処理時間や生成される画像の品質、そして文字埋め込みの限界について探っていきます。

前の記事
この記事でできること
事前に必要なもの
手順
最後に

www.taneyats.com

この記事でできること

ComfyUIでqwen-imageを動かした際の所感がわかる
RTX3060でのqwen-imageの処理時間がわかる
ステップ数と生成品質の関係性がわかる
qwen-imageの文字埋め込み性能がわかる

事前に必要なもの

ComfyUIが動作する環境
NVIDIA GeForce RTX 3060 (または同等のGPU)
qwen-imageのモデルファイル

MSI GeForce RTX 3060 VENTUS 2X 12G OC グラフィックスボード VD7553

Amazon

手順

デフォルト設定で試してみる

まずはComfyUIのデフォルト設定に近い形で生成を試みました。

設定

解像度: 1328 x 1328
ステップ数: 20ステップ

結果

この設定で画像を生成したところ、完了まで約5分かかりました。生成された画像は非常に高品質で、細かい部分までしっかりと描画されています。ただ、一枚生成するのに5分は少し長く感じますね。

ステップ数を減らして試す

次に、生成時間を短縮するためにステップ数を調整してみました。

10ステップの場合

ステップ数を半分に減らして10に設定したところ、生成時間は約3分に短縮されました。画像の品質は、20ステップと比較すると若干ぼやけた印象を受けますが、十分に許容範囲内です。手早く画像を生成したい場合には良い選択肢かもしれません。また大抵の場合で背景情報がなくなってしまいました。

5ステップの場合

さらにステップ数を5まで減らしてみました。生成時間は1分強とかなり速くなりました。しかし、画像の品質はかなり怪しい感じに...。特に顔や文字のような細かいディテールが崩れがちでした。モデルの特性として、こういった細かい部分から最初に処理しているのかもしれません。

個人的なベストセッティング

いくつかの設定を試した結果、個人的に品質と生成時間のバランスが最も良いと感じた設定は以下の通りです。

設定

解像度: 1024 x 1024
ステップ数: 20ステップ

結果

この設定では、2分強で画像を出力できました。解像度を少し下げることで、20ステップでも快適な時間で生成でき、背景の書き込みも細かく、非常に満足のいく結果となりました。RTX3060で運用するなら、このあたりがスイートスポットになりそうです。

文字埋め込み性能の検証

qwen-imageは文字の埋め込みが得意だと聞いていたので、そちらも試してみました。

アルファベットと漢字: こちらはかなり高精度で、意図した通りの文字を画像に埋め込むことができました。これは素晴らしいですね！ただ中華フォントとなってしまいます。。。
ひらがなとカタカナ: 残念ながら、日本語のひらがなとカタカナは実用には厳しそうな印象でした。生成された文字が、少し不自然な字体になってしまいます。このあたりは今後のアップデートとローカライズに期待したいところです。

最後に

今回はComfyUIを使ってqwen-imageをRTX3060環境で試してみました。結果として、解像度やステップ数を調整することで、RTX3060でも十分に快適に高品質な画像を生成できることがわかりました。特に1024x1024の解像度で20ステップという設定は、時間と品質のバランスが取れていておすすめです。

文字生成能力については、アルファベットや漢字の精度は非常に高いものの、ひらがな・カタカナにはまだ課題が残るようです。とはいえ、今後の発展が非常に楽しみなモデルであることは間違いありません。