画像生成AIをローカルで動かしてみた(ComfyUI(FLUX.1))

Share
画像生成AIをローカルで動かしてみた(ComfyUI(FLUX.1))

今回は「ComfyUI」を使用して、工夫もなくデフォルトのテンプレートを使用して遊んでみます。
インストールから動かす所まで、軽く解説します。

動作環境はNVIDIAのGPUを搭載しているPCでグラフィックRAMの容量によって、画像サイズや使用するデータ(モデル)の種類が限られる感じになります。
CPUモードもあるので、使っている環境に合わせて起動してください
今回は両方試して、処理速度の差も分かります

今回のサンプルを動作させるにはストレージは20Gぐらいはあった方が良いかもって感じです。
いろいろ試したい場合は、必要に応じてギガ単位のモデルをダウンロードするので、ストレージの消費が激しいので注意です。

「ComfyUI」をダウンロードです。
以下のサイトへアクセスして、
https://github.com/comfyanonymous/ComfyUI

スクリーンショットのような「Installing」の項目に「Direct link to download」とあるので、これをクリックします。
2G程容量があるので、ダウンロードしてください

ダウンロードが終わると、7zip形式で圧縮されているので、展開できるフリーソフトがあるので、ソフトを入れて展開してください。
展開すると6Gぐらいになります。
「ComfyUI_windows_portable」を開くと

スクリーンショットのように「run_nvidia_gpu.bat」をダブルクリックするだけで、環境さえ揃っていれば動作します。
すごい簡単ですね。
ちなみに、CPUで動かしたい場合は「run_cpu.bat」を実行します。

これぐらい簡単だと楽でいいのですが、「ComfyUI」を使ったシステムって、「ComfyUI」そのものが少し難しいので、素直にテンプレートでいじってみます。

まずは、「ワークフロー」の「テンプレート」を選択します。

開くと左メニューから「Flux」を選択して、「Flux Dev」を選択します。
すると、モデルが無いと言われるので、ダウンロードボタンを押して、ダウンロードします。

ダウンロードのボタンを押します

サンプルを見ると、プロンプトを英語で入れているので、英語で入れた方が再現度が高そうです。

翻訳サイトで翻訳するとして、今回は以下のプロンプトを実行してみます。
英語の部分だけを入れて実行します。

戦闘メイド服を着た青いロングヘアーをなびかせた女性が夕日が綺麗な草原を背景にヘッドホンで音楽を聴いている
A woman with long blue hair wearing a combat maid uniform is listening to music with headphones against the backdrop of a beautiful grassland with a sunset

戦闘メイド服を着た青いロングヘアーをなびかせた女性が夕日が綺麗な草原を背景にヘッドホンで音楽を聴いている

GPUとCPUで、何が違うのかだけ少し解説します。

CPUは複雑な計算が得意でGPUは単純な計算が得意です。
3DグラフィックやAIの計算などは単純な計算ですが、大量に行う必要があります。
これは、CPUよりGPUの方が向いていて、GPUは大量のコアと高速なメモリーで一気に処理するので、AIには向いているわけです。
実際、今回の計算で差がどれぐらい出たかを示したいと思います。

比較は
GPU RTX5070ti
CPU i9-12900K

CPUの方が少し古いですが、わかりやすい比較にはなると思います。
注意点としては、CPUで計算中メモリーが足りてなさそうだった事です。
64Gメモリーで足りない感じだったので、CPUで試す方は注意です。

起動直後の動きw

むちゃくちゃメモリー食ってますw

GPUの場合メモリー使用量

32ギガメモリーがあればギリ足りそう

32ギガぐらいまでしか使っていません

実際に画像が出力されるまでにかかった時間です。
CPU

2時間22分23秒

2時間22分かかっています。
もはや秒単位は誤差です。1枚でこの時間だと、さすがに1回試せば十分です。
CPUに計算させながら、このブログ書いていましたが、数秒フリーズしたり通常作業にも影響がありました。

GPU

23秒

GPUで処理すると23秒で生成が終了します。
これなら、気軽に利用できます。試行錯誤もできますし、多少変な物が生成されてもやり直しがききます。
GPUのパワーを思い知りますね

このスクリーンショットは実際の処理中に進行度を表示している部分で、このスクリーンショットは実際の処理中に進行度を表示している部分で、100%になった時、かかった時間が表示されます。

遅い原因はメモリーが足りないとか、メモリーがDDR4で遅いとか色々ありますが、少し早くなるぐらいではGPUに太刀打ちできないのが分かるかと思います。
結果としては、GPUを利用した方が早いし安定しているので、NVIDIAのグラフィックカードがある方は利用した方がいいですね。
世界でGPUの取り合いになるニュースがありますが、それがよく分かる結果かと思います。

セル的なイラストになっています。
夕焼けもいい感じで、プロンプト通りになっていますね。

今度は以下のプロンプトで実行してみます。

ゴシックなメイド服を着た紫色のロングヘアーをなびかせた女性が夕日が綺麗な草原を背景にヘッドホンで音楽を聴いている

A woman with long purple hair wearing a gothic maid outfit is listening to music with headphones against the backdrop of a beautiful grassland with a sunset

このプロンプトで出てきた画像です。

なぜか、突然実写みたいな画像になりました。
夕日の感じもよく出ていますし、プロンプト通りのメイド服になっていると思いますが、なぜか実写風のリアルっぽい女性になっています。 
この違いは何なのかよく分からないですが、何の違いが影響しているの実験するために、以下のプロンプトを実行してみます。

戦闘メイド服を着た紫色のロングヘアーをなびかせた女性が夕日が綺麗な草原を背景にヘッドホンで音楽を聴いている
A woman with long purple hair wearing a combat maid uniform is listening to music with headphones against the backdrop of a beautiful grassland with a sunset.

どうやら、ゴシックメイド服だと実写風で、戦闘メイド服だとアニメ風になりました。
指定を変更してどうなるか試してみます。

戦闘メイド服のコスプレをした紫色のロングヘアーをなびかせた女性が夕日が綺麗な草原を背景にヘッドホンで音楽を聴いている
A woman with long purple hair dressed in a combat maid outfit is listening to music with headphones against the backdrop of a beautiful grassland with a sunset.

戦闘メイド服コスチュームを着た紫色のロングヘアーをなびかせた女性が夕日が綺麗な草原を背景にヘッドホンで音楽を聴いている
A woman with long purple hair wearing a combat maid costume is listening to music with headphones against the backdrop of a beautiful grassland with a sunset

ゴシックロリータ服を着た紫色のロングヘアーをなびかせた女性が夕日が綺麗な草原を背景にヘッドホンで音楽を聴いている
A woman with long purple hair wearing Gothic Lolita clothing is listening to music with headphones against the backdrop of a grassland with a beautiful sunset.

同じプロンプトで何度か出してみました。

今回の結論としては、学習した物の問題だと思いますが、実在する服は実写になる場合が多く、空想上の服とかアニメで使われている事が多い服は、アニメ調になるって事でしょう。
ゴスロリなんかは、実写もアニメも多いですからね。

着物を着た紫色のロングヘアーをなびかせた女性が夕日が綺麗な草原を背景にヘッドホンで音楽を聴いている
A woman with long purple hair wearing a kimono is listening to music with headphones against the backdrop of a grassland with a beautiful sunset

メイド服とかゴスロリが好きなだけの人になりそうなので、違うパターンも出しておきましたw。

最後にリクルートスーツで健全な感じにしておきましたw
夕日ばかりも何なので、朝日も・・・・

夕日と変わんなくね?w

Read more

自動的にカラオケっぽい歌詞を付けるアプリを作ってみた結果

自動的にカラオケっぽい歌詞を付けるアプリを作ってみた結果

sunoで作成した曲に歌詞を付けるのが手間だなぁ~と常々思っていたのですが、これを効率化したいと言う事で、今回は歌を解析して歌詞を指定すればタイミングを合わせて配置してくれるアプリを作ってみました。 せっかく作ったので少し解説と、どんな物が作れるのか、デモの動画と少し解説をしますが、アプリそのものはライセンスの問題で非公開です。 実際にこのツールで作成した動画を3本ほど紹介 スペルトナエル サイコロ勇者と魔王の城 アトミックピクニック 見てもらうと分かりますが、これが思ったより簡単に作れるようになったので、現在のように短期間で作れるようになりました。 歌詞入りで曲を公開する場合に、歌詞を入れる作業に時間がかかる割に、イマイチなできになる事も多いので、クオリティーが安定したのも良かったです。 では、次の動画で実際にツールを使って曲に歌詞を入れていきます。 使用しているAIのライセンス問題で、手軽に公開できないのと、需要がそれ程無さそうなので、こんなアプリで動画作成してますよって紹介になります。 音源さえ用意すれば、カラオケも作れちゃいます。 カラオケの例です。

ある人から、MarkdownのテキストをPDFにしてくれる何かが欲しいと言われたので、Claude Codeで作る事にした

ある人から、MarkdownのテキストをPDFにしてくれる何かが欲しいと言われたので、Claude Codeで作る事にした

実際、AIはMarkdownで解答を返してくる事が多く、普通に使っているだけでも、Markdown形式のテキストが手軽に表示したり、PDFに変換できると便利だと思うので、ブラウザで手軽に使える物を作りました。 作成後WEB上にアップしたのが以下のURLになります。 https://test.aisgm.me/test_prog/app/md2pdf/ VS Codeのプラグイン入れれば、同じ事は出来ますし、他にも同じようなアプリを作っている人がいるので、それを使うのも手なんですが、最近は怪しいサイトも多いですし、広告が大量に出るものも多いです。 更に、プラグインがウィルスに汚染されているケースなんかもニュースになっているので、セキュリティー的に使った事が無いものを人に勧めるのも怖いです。 そんな訳で、手軽に使えてインストール等の面倒な準備が必要無いってなると、WEBアプリでアクセスすれば使えて、ローカルで処理させるのが良さそうです。 配布やインストールの手間も必要無く、使いたい時にネットに繋がって、ブラウザさえあれば動くので一番使い勝手がいいですよね。 ってな訳で、Claude

画像フォーマットに関する記事を見て色々と深掘りしてみた

画像フォーマットに関する記事を見て色々と深掘りしてみた

画像フォーマットの正体とWebPの「予測マジック」を理解する 次世代画像フォーマットAVIFを触ってみた 割と最近の画像圧縮フォーマットについてです。 「webp」は比較的見るようになったフォーマットですが、従来は画像のサイズが小さいのはJPGで、透明色が使えて画質を維持するのがPNGって感じで、使い分けられていると思います。 しかし、JPGは古いフォーマットで圧縮アルゴリズムも古い上に、透明色が使えないなど改良の余地が多々あるので、「JPEG 2000」というフォーマットも作成されました。 「JPEG 2000」は技術的には従来のJPEGを大幅に上回る優秀なフォーマットにもかかわらず、処理負荷の高さや互換性の問題から一般消費者向けには普及しませんでした。 今となっては、それ程負荷は高くないのですが、開発された当時(2000年代前半)のPCのスペックを考えると厳しかったと思われます。 2001年のPCスペックを調べてみました。 Intel Pentium III 256MBから512MBのRAM 20GBから80GB Windows 98やWindows 2000が主流 この

suno5.5の実力を過去バージョンと比較(比較曲多めでお送りします)

suno5.5の実力を過去バージョンと比較(比較曲多めでお送りします)

suno5.5を使ってみましたが、なんか音の厚みが増して日本語の再現度も上がって、歌唱クオリティが一ランク上がったように感じるほどです。 とりあえずバージョンの歴史から V2 (2023年秋):  最大生成時間は1分20秒でした V3 (2024年春):  生成時間が2分に更新されました V3.5 (2024年夏): 曲の構造が改善され、初回生成の最大時間が4分に、延長                       (Extend)は1回につき最大2分まで可能になりました V4 (2024年11月): ボーカル品質が向上し、初回生成の最大時間は4分です。また、「Extend(延長)」「Cover(カバー)」「Persona(ペルソナ)」機能が追加されました V4.5 (2025年5月): 初回生成の最大時間が8分に延長され、プロンプトへの忠実度やスタイルのマッシュアップ機能が向上しました V4.5+ (2025年7月): 「Add Vocals(ボーカル追加)」や「Add Instrumental(インスト追加)」などの制作ツールが更新されました V5 (2025年9月):  オーディ