画像生成AIをローカルで動かしてみた(ComfyUI(FLUX.1))

画像生成AIをローカルで動かしてみた(ComfyUI(FLUX.1))

今回は「ComfyUI」を使用して、工夫もなくデフォルトのテンプレートを使用して遊んでみます。
インストールから動かす所まで、軽く解説します。

動作環境はNVIDIAのGPUを搭載しているPCでグラフィックRAMの容量によって、画像サイズや使用するデータ(モデル)の種類が限られる感じになります。
CPUモードもあるので、使っている環境に合わせて起動してください
今回は両方試して、処理速度の差も分かります

今回のサンプルを動作させるにはストレージは20Gぐらいはあった方が良いかもって感じです。
いろいろ試したい場合は、必要に応じてギガ単位のモデルをダウンロードするので、ストレージの消費が激しいので注意です。

「ComfyUI」をダウンロードです。
以下のサイトへアクセスして、
https://github.com/comfyanonymous/ComfyUI

スクリーンショットのような「Installing」の項目に「Direct link to download」とあるので、これをクリックします。
2G程容量があるので、ダウンロードしてください

ダウンロードが終わると、7zip形式で圧縮されているので、展開できるフリーソフトがあるので、ソフトを入れて展開してください。
展開すると6Gぐらいになります。
「ComfyUI_windows_portable」を開くと

スクリーンショットのように「run_nvidia_gpu.bat」をダブルクリックするだけで、環境さえ揃っていれば動作します。
すごい簡単ですね。
ちなみに、CPUで動かしたい場合は「run_cpu.bat」を実行します。

これぐらい簡単だと楽でいいのですが、「ComfyUI」を使ったシステムって、「ComfyUI」そのものが少し難しいので、素直にテンプレートでいじってみます。

まずは、「ワークフロー」の「テンプレート」を選択します。

開くと左メニューから「Flux」を選択して、「Flux Dev」を選択します。
すると、モデルが無いと言われるので、ダウンロードボタンを押して、ダウンロードします。

ダウンロードのボタンを押します

サンプルを見ると、プロンプトを英語で入れているので、英語で入れた方が再現度が高そうです。

翻訳サイトで翻訳するとして、今回は以下のプロンプトを実行してみます。
英語の部分だけを入れて実行します。

戦闘メイド服を着た青いロングヘアーをなびかせた女性が夕日が綺麗な草原を背景にヘッドホンで音楽を聴いている
A woman with long blue hair wearing a combat maid uniform is listening to music with headphones against the backdrop of a beautiful grassland with a sunset

戦闘メイド服を着た青いロングヘアーをなびかせた女性が夕日が綺麗な草原を背景にヘッドホンで音楽を聴いている

GPUとCPUで、何が違うのかだけ少し解説します。

CPUは複雑な計算が得意でGPUは単純な計算が得意です。
3DグラフィックやAIの計算などは単純な計算ですが、大量に行う必要があります。
これは、CPUよりGPUの方が向いていて、GPUは大量のコアと高速なメモリーで一気に処理するので、AIには向いているわけです。
実際、今回の計算で差がどれぐらい出たかを示したいと思います。

比較は
GPU RTX5070ti
CPU i9-12900K

CPUの方が少し古いですが、わかりやすい比較にはなると思います。
注意点としては、CPUで計算中メモリーが足りてなさそうだった事です。
64Gメモリーで足りない感じだったので、CPUで試す方は注意です。

起動直後の動きw

むちゃくちゃメモリー食ってますw

GPUの場合メモリー使用量

32ギガメモリーがあればギリ足りそう

32ギガぐらいまでしか使っていません

実際に画像が出力されるまでにかかった時間です。
CPU

2時間22分23秒

2時間22分かかっています。
もはや秒単位は誤差です。1枚でこの時間だと、さすがに1回試せば十分です。
CPUに計算させながら、このブログ書いていましたが、数秒フリーズしたり通常作業にも影響がありました。

GPU

23秒

GPUで処理すると23秒で生成が終了します。
これなら、気軽に利用できます。試行錯誤もできますし、多少変な物が生成されてもやり直しがききます。
GPUのパワーを思い知りますね

このスクリーンショットは実際の処理中に進行度を表示している部分で、このスクリーンショットは実際の処理中に進行度を表示している部分で、100%になった時、かかった時間が表示されます。

遅い原因はメモリーが足りないとか、メモリーがDDR4で遅いとか色々ありますが、少し早くなるぐらいではGPUに太刀打ちできないのが分かるかと思います。
結果としては、GPUを利用した方が早いし安定しているので、NVIDIAのグラフィックカードがある方は利用した方がいいですね。
世界でGPUの取り合いになるニュースがありますが、それがよく分かる結果かと思います。

セル的なイラストになっています。
夕焼けもいい感じで、プロンプト通りになっていますね。

今度は以下のプロンプトで実行してみます。

ゴシックなメイド服を着た紫色のロングヘアーをなびかせた女性が夕日が綺麗な草原を背景にヘッドホンで音楽を聴いている

A woman with long purple hair wearing a gothic maid outfit is listening to music with headphones against the backdrop of a beautiful grassland with a sunset

このプロンプトで出てきた画像です。

なぜか、突然実写みたいな画像になりました。
夕日の感じもよく出ていますし、プロンプト通りのメイド服になっていると思いますが、なぜか実写風のリアルっぽい女性になっています。 
この違いは何なのかよく分からないですが、何の違いが影響しているの実験するために、以下のプロンプトを実行してみます。

戦闘メイド服を着た紫色のロングヘアーをなびかせた女性が夕日が綺麗な草原を背景にヘッドホンで音楽を聴いている
A woman with long purple hair wearing a combat maid uniform is listening to music with headphones against the backdrop of a beautiful grassland with a sunset.

どうやら、ゴシックメイド服だと実写風で、戦闘メイド服だとアニメ風になりました。
指定を変更してどうなるか試してみます。

戦闘メイド服のコスプレをした紫色のロングヘアーをなびかせた女性が夕日が綺麗な草原を背景にヘッドホンで音楽を聴いている
A woman with long purple hair dressed in a combat maid outfit is listening to music with headphones against the backdrop of a beautiful grassland with a sunset.

戦闘メイド服コスチュームを着た紫色のロングヘアーをなびかせた女性が夕日が綺麗な草原を背景にヘッドホンで音楽を聴いている
A woman with long purple hair wearing a combat maid costume is listening to music with headphones against the backdrop of a beautiful grassland with a sunset

ゴシックロリータ服を着た紫色のロングヘアーをなびかせた女性が夕日が綺麗な草原を背景にヘッドホンで音楽を聴いている
A woman with long purple hair wearing Gothic Lolita clothing is listening to music with headphones against the backdrop of a grassland with a beautiful sunset.

同じプロンプトで何度か出してみました。

今回の結論としては、学習した物の問題だと思いますが、実在する服は実写になる場合が多く、空想上の服とかアニメで使われている事が多い服は、アニメ調になるって事でしょう。
ゴスロリなんかは、実写もアニメも多いですからね。

着物を着た紫色のロングヘアーをなびかせた女性が夕日が綺麗な草原を背景にヘッドホンで音楽を聴いている
A woman with long purple hair wearing a kimono is listening to music with headphones against the backdrop of a grassland with a beautiful sunset

メイド服とかゴスロリが好きなだけの人になりそうなので、違うパターンも出しておきましたw。

最後にリクルートスーツで健全な感じにしておきましたw
夕日ばかりも何なので、朝日も・・・・

夕日と変わんなくね?w

Read more

比較的最近の気になったニュース11月26日

比較的最近の気になったニュース11月26日

ここ最近色々追いつかなくて、更新が滞っております・・・・ 書きかけの記事も何個かあって・・・ぐぬぬ そんな訳で、最近気になったニュースです。 エレコム、よくやった! ひと目で「仕様」がわかるUSB-Cケーブル登場 USBケーブルって凄く種類が多くて、規格を考えた奴土下座しろって言いたくなりますw データーの転送速度と、電気の流量の組み合わせで性能に差があり、100Wの電気が流せるのに、データの転送速度が「USB2.0」相当とか・・・ 「USB3.1 Gen1」は「USB2.0」の約10倍ぐらいの速度なので、差が激しいですよね。それが全く書かれていないし、分からないケーブルも沢山あるので書いてくれるとありがたいですね。 USB Cable Checker3 ちなみにこんな製品も出ていて、USBケーブルの性能をテストできます。 実は持っている上に、クラファンで購入したので、ブログに書こうと思っているので、その内書きます。 AIは著者が中国人であることが明らかになると途端に「反中」モードになることが判明:特にDeepSeekが顕著な傾向 面白い記事ですね。学習元の影響が大きい

ローカルで効果音が作成できるAI「MMAudio」を使ってみた(「Waves Place」と同じ効果音も作ってみました)

ローカルで効果音が作成できるAI「MMAudio」を使ってみた(「Waves Place」と同じ効果音も作ってみました)

MMAudio は、ビデオやテキストや画像の入力が与えられると、動画は同期されたオーディオ、画像はそれに合った音を生成します。 使用方法は Pinokio https://pinokio.co/ こちらのアプリからインストールして、「MMAudio」を使います。 インストール方法などは別記事を書きたいと思います。 比較対象として 時計のG-shockでおなじみのCASIO(カシオ)の新サービス!AIで効果音が生成できる「Waves Place」を試してみた の記事と比較しやすいように、同じようなプロンプトで作成します。 MMAudio は、ビデオやテキストや画像の入力が与えられると、動画は同期されたオーディオ、画像はそれに合った音を生成します。 使い方が非常に簡単な上に、動画に合わせて生成できるのも使い勝手がいいですね。カシオの「Waves Place」はテキストからだけだったので、こちらの方が少し上な感じがします。 実際にできるのは、 ・テキストから効果音生成 ・画像から効果の音生成 ・動画に合わせて効果音生成 前に「Waves Place」用に作成した動画が、丁

久々にオールインワンのコード生成「DeepSite」を使ってみた

久々にオールインワンのコード生成「DeepSite」を使ってみた

AIがWEBサイトをコーディングしてくれるサービスです。 DeepSite https://huggingface.co/spaces/enzostvs/deepsite 今回はテトリスっぽいゲームを作ってもらいました 今回の完成品 https://iaisd9-blocky-blitz-bonanza.static.hf.space/index.html では本題です。 アカウント(無料)を作ると、完成品をこのように公開できます。 ちなみに無料のユーザー登録すると、制作物を「DeepSite」で公開できる機能もあるので便利です(今回はその機能を使っています)。 複数のページが相互接続された複雑なウェブサイトを構築できます。 シンプルなランディングページから、動的なルーティングとナビゲーションを備えたフル機能のウェブアプリケーションまで、あらゆるものを構築できます。 と言う事で、WEBページであれば、かなりの物を作成できるサービスなので、当然ブラウザで遊べるゲームも作る事ができるので、テトリス的なゲームを作ってもらいました。 このサービスに限らず、既にWEB

時計のG-shockでおなじみのCASIO(カシオ)の新サービス!AIで効果音が生成できる「Waves Place」を試してみた

時計のG-shockでおなじみのCASIO(カシオ)の新サービス!AIで効果音が生成できる「Waves Place」を試してみた

前に気になっていたけど、試していなかったので、今回試してみました。 CASIOのアカウントを作成する必要があります。 ちょっとめんどいですが、無料で試せるのでとりあえず作成して試してみました。 一応プレスリリースです。 AIで効果音が生成できる「Waves Place」とライブ配信専用スケジューラー「Streamer Times」を正式リリース 実際どんな交換が生成できるのか、結構気にはなってます。 効果音系のアプリも実は持っているので、そんなのと比較もしてみたいですが、今回はこのサービスがどんな感じかを試します。 まず、料金プランのリンクです。最新情報はこちらを参照してください。 一応現在時点のプランです。 フリープランでは商用は不可ですね。 「starter」プラン以降で商用利用可能です。 フリーだと月20回までお試しできる感じです。 月千円(「starter」プラン)で800回って事なので、普通は「starter」プランで使い切れない気がします。 使うとすると、基本的に必要な時に有料プランして、終わったらフリーに戻すみたいな使い方になりそうなサービスです。 実際