評判の動画生成AIの「ConmfyUI」で「Wan2.2」省メモリー版を使ってみた

「ConmfyUI」の標準的テンプレートを使用してみましたが、「RTX5070 Ti 16GB」だととりあえず動きますが、動作のサイズや時間でメモリー不足になってしまします。
また、調節も色々難しくて、動画のサイズで生成中に止まったり、なかなか思うように生成できません。
昨日の記事でも載せましたが、初期状態で何もいじらずに、動画を作成した時の内容です。
5秒だけですが凄いですよね。
水滴の動きまでちゃんと表現できています。
時間を延ばそうと色々と設定を変えたり、プロンプトを変えてみましたが、時間を延ばすとメモリーが足りなくなります。
そんな時、
ComfyUIでWan2.2をLoRAを使って軽量化し、RTX3060で動かす
こんな記事が流れてきました。
少ないメモリーで動かす試みです。
これを適用すれば、メモリー不足が緩和されて、動画サイズや時間を伸ばしてもうまく動きそうです。
ネタ元は「reddit」の書き込みだそうで、こちらを参照しつつ試しました。
reddit
元記事
「reddit」でワークフローがダウンロードできるので、これを使わせてもらいます。
必要なものは
モデルが以下の2種類
wan2.2_t2v_high_noise_14B_Q5_K_M.gguf
wan2.2_t2v_low_noise_14B_Q5_K_M.gguf
LoRA:
Wan21_T2V_14B_MoviiGen_lora_rank32_fp16.safetensors
「ComfyUI\models\diffusion_models」へコピーします。
書かれていませんが、まっさらな状態で利用する場合、以下のファイルも必要になります。
LoRA:
Wan21_T2V_14B_lightx2v_cfg_step_distill_lora_rank32.safetensors
以下のサイトで落とせます。
https://huggingface.co/joerose/Wan21_T2V_14B_lightx2v_cfg_step_distill_lora_rank32/tree/main
入れる先はこちらです。
「ComfyUI\models\loras」
これで、動作しました。
いろいろ試しましたが、画像のサイズを大きくすると途中で止まるケースもあり、このモデルはサイズで色々ありそうです。
個人的に安定したのは、「420*720」の縦長でした。
色々情報を見ていると、学習データがスマホの縦長が多かったから、縦長の方が得意だろうみたいな話でした。
納得できる話ではありますが、横長の動画を作りにくいのは、ちょっと困りますね。(作ってみましたが作れない事は無いですね)
実際に作ってみた動画です
コーヒーを飲むメイドさん
踊るメイドさん
なぜかめっちゃ雪が降ってます。
15秒と長めにしたら、80分程度の時間がかかりました。
プロンプトには含めていないので、謎ですw
むしろプロンプトに天気や気候の情報を入れれば良かったかもです。
今度はアニメ絵です。
このクオリティーで5秒5分かからないって・・・これまた凄いですよね。サイズは480*720ですけど。
テキストから作成できるので、詳しくテキストで描写すれば、かなり忠実に作成してくれます。
女の子ばかりじゃ無くて、こんなのも
ビルの解体爆破をやろうと思ったら・・・・
なかなかうまくいかない物ですw
もう少し実験して、成果があったらまた書きます。