評判の動画生成AIの「ConmfyUI」で「Wan2.2」省メモリー版を使ってみた

評判の動画生成AIの「ConmfyUI」で「Wan2.2」省メモリー版を使ってみた

「ConmfyUI」の標準的テンプレートを使用してみましたが、「RTX5070 Ti 16GB」だととりあえず動きますが、動作のサイズや時間でメモリー不足になってしまします。
また、調節も色々難しくて、動画のサイズで生成中に止まったり、なかなか思うように生成できません。
昨日の記事でも載せましたが、初期状態で何もいじらずに、動画を作成した時の内容です。

0:00
/0:05

5秒だけですが凄いですよね。
水滴の動きまでちゃんと表現できています。
時間を延ばそうと色々と設定を変えたり、プロンプトを変えてみましたが、時間を延ばすとメモリーが足りなくなります。

そんな時、
ComfyUIでWan2.2をLoRAを使って軽量化し、RTX3060で動かす

こんな記事が流れてきました。
少ないメモリーで動かす試みです。
これを適用すれば、メモリー不足が緩和されて、動画サイズや時間を伸ばしてもうまく動きそうです。
ネタ元は「reddit」の書き込みだそうで、こちらを参照しつつ試しました。

reddit
元記事

「reddit」でワークフローがダウンロードできるので、これを使わせてもらいます。
必要なものは

モデルが以下の2種類

wan2.2_t2v_high_noise_14B_Q5_K_M.gguf
wan2.2_t2v_low_noise_14B_Q5_K_M.gguf

LoRA:

Wan21_T2V_14B_MoviiGen_lora_rank32_fp16.safetensors

「ComfyUI\models\diffusion_models」へコピーします。

書かれていませんが、まっさらな状態で利用する場合、以下のファイルも必要になります。

LoRA:

Wan21_T2V_14B_lightx2v_cfg_step_distill_lora_rank32.safetensors

以下のサイトで落とせます。
https://huggingface.co/joerose/Wan21_T2V_14B_lightx2v_cfg_step_distill_lora_rank32/tree/main

入れる先はこちらです。
「ComfyUI\models\loras」

これで、動作しました。
いろいろ試しましたが、画像のサイズを大きくすると途中で止まるケースもあり、このモデルはサイズで色々ありそうです。
個人的に安定したのは、「420*720」の縦長でした。
色々情報を見ていると、学習データがスマホの縦長が多かったから、縦長の方が得意だろうみたいな話でした。
納得できる話ではありますが、横長の動画を作りにくいのは、ちょっと困りますね。(作ってみましたが作れない事は無いですね)

実際に作ってみた動画です
コーヒーを飲むメイドさん

0:00
/0:05

踊るメイドさん

0:00
/0:15

なぜかめっちゃ雪が降ってます。
15秒と長めにしたら、80分程度の時間がかかりました。
プロンプトには含めていないので、謎ですw
むしろプロンプトに天気や気候の情報を入れれば良かったかもです。

今度はアニメ絵です。

0:00
/0:05

このクオリティーで5秒5分かからないって・・・これまた凄いですよね。サイズは480*720ですけど。
テキストから作成できるので、詳しくテキストで描写すれば、かなり忠実に作成してくれます。

女の子ばかりじゃ無くて、こんなのも

0:00
/0:05

ビルの解体爆破をやろうと思ったら・・・・

なかなかうまくいかない物ですw
もう少し実験して、成果があったらまた書きます。

最後に失敗した解体現場をお送りしますw

0:00
/0:05

Read more

比較的最近の気になったニュース8月01日

ASUSがNVIDIA GB300搭載デスクトップを発表、20PFLOPSの性能をデスクトップPCサイズに凝縮 | XenoSpectrum 20ペタフロップスと784GBメモリ・・・・ これがどのくらい凄いのかを調べました 過去のスーパーコンピューターランキングトップを年代毎にまとめた物です。 2012-13 Titan(Cray) オークリッジ国立研究所 17.59P 2014年は33ペタフロップスまで進んでしますので、丁度2013年ぐらいの、世界最高性能スパコンと同等ぐらいです。 それが普通のデスクトップパソコンとして動くってのが凄いですよね。 ちなみに普通のデスクトップPCの性能が0.5ペタフロップスぐらいといわれていますので、それだけ強力な計算能力があるって事っすね・・・ その分電源も価格も全てがモンスターなので、なんと言ったらいいか・・・ プロ野球レジェンド物語 1 (エンペラーズコミックス) 新品価格 ¥11から (2025/8/1 10:21時点) プロ作家たちが語る「AI×小説執筆」の現在地 AIが「書く」「読む」を変える【f

「最強の武術家」80年代のアクション映画にインスパイアされたヴァンサバライクアクションゲームの感想など

「最強の武術家」80年代のアクション映画にインスパイアされたヴァンサバライクアクションゲームの感想など

つみげー #299「最強の武術家」80年代のアクション映画にインスパイアされたヴァンサバライクアクションゲームの感想など 最強の武術家 https://store.steampowered.com/app/3027930/_/ 再生リスト 新たな技を覚えて主人公が成長していく感じも、修行して成長する80年代の香港映画っぽさがあって、楽しくプレイできます。 ドット絵のアニメーションも多くて、芸が細かいところも見ていて面白いですし、机の上にあるお皿を投げたり、冷蔵庫の扉を開けて敵を倒したりする動きがジャッキーチェンを彷彿とさせます。 そんな動きの数々が見ているだけでも大変面白く、徐々にアクションが解放されるし、自分でコンボを作成できるので、解放されたアクションを見るためにプレイを繰り返してしまいます。 ヴァンサバと違って、格闘アクションゲームって感じなので、遠距離攻撃がほとんど無くて近距離攻撃で敵を倒す戦いが、一般的なヴァンサバライクなゲームとプレイ感覚が少し違う所も面白いです。 特に、逃げていると、机の下をかっこよくくぐるアクションなんかもあり、そこは敵が

「prompt builder」の作り方

「prompt builder」の作り方

今回は作る過程について、紹介します。 アマゾンのAIコーディングツール「kiro」を使用します。 これにどんな物を作りたいかを入れて、「要件定義書」と「設計書」を作ってもらいます。 Claudeだけでもできますが、「kiro」を使うとこの辺かちょっと簡単になります。 「kiro」に以下を投げて、「要件定義書」と「設計書」を作成してもらいます。 画像生成用のプロンプトを組み合わせでいろいろ作成できるようにするためのアプリを作成したいと考えています。 他にも必要祖いう名機能や、足りていない仕様などアドバイスをしてください 想定の使い方  場所、人物、行動、オブジェクト、文字、プロンプト集の中から組み合わせて、画像生成に使用するプロンプトを構築してプロンプトを作成します。  カテゴリーは、自分で設定できた方が使い勝手がいいと思うので、カテゴリーは自分で設定して増やせるようにして、その中から自由に選択してプロンプトを作成 必要な機能 ・分類別にプロンプトを管理できる ・プロンプトを日本語と英語両方を保持できる ・必要な時にプロンプトを組み合わせてクリップボードに入れられる ・プロンプト

購入したミニPC「GMKtec」の「EVO-X1」で「AMUSE」画像生成AI動かしてみた!

購入したミニPC「GMKtec」の「EVO-X1」で「AMUSE」画像生成AI動かしてみた!

AIに関しては色々と動かしてみたのですが、長くなりそうなので、それぞれ別記事で書いていきます。 今回入れたツールは以下の3つ ・LM STDIO ・AMUSE ・Pinokio 画像生成の「AMUSE」をチラ見せしていたので、ちゃんとどんな感じか紹介していきます。 「AMUSE」はAMDが開発を支援しているので、AMDのCPUやGPUに対応しています。 今回一番ミニPCの性能を生かせるアプリでもあります。 なので「AMUSE」は、画像生成以外に、動画の生成まで、モデル複数簡単に使えるように用意されているので、AMDのGPUを持っている人はお勧めできるアプリです。 画像の生成は3種類の速度重視からクオリティー重視までがある事を前回軽く紹介しました。 それ以外に、自分で大雑把な絵で配置を指定するモードや、既にあるイメージを別のスタイルに変換するなど、色々なモードやモデルを利用できます。 今回は、こちらのチャイナドレスの女性の画像を「angel style」で変換をかけてみます。 結果がこちら どの辺がangel style なのかは、人による所だとは思いますが、全