AI関連

評判の動画生成AIの「ConmfyUI」で「Wan2.2」省メモリー版を使ってみた

「ConmfyUI」の標準的テンプレートを使用してみましたが、「RTX5070 Ti 16GB」だととりあえず動きますが、動作のサイズや時間でメモリー不足になってしまします。
また、調節も色々難しくて、動画のサイズで生成中に止まったり、なかなか思うように生成できません。
昨日の記事でも載せましたが、初期状態で何もいじらずに、動画を作成した時の内容です。

0:00

/0:05

5秒だけですが凄いですよね。
水滴の動きまでちゃんと表現できています。
時間を延ばそうと色々と設定を変えたり、プロンプトを変えてみましたが、時間を延ばすとメモリーが足りなくなります。

そんな時、
ComfyUIでWan2.2をLoRAを使って軽量化し、RTX3060で動かす

こんな記事が流れてきました。
少ないメモリーで動かす試みです。
これを適用すれば、メモリー不足が緩和されて、動画サイズや時間を伸ばしてもうまく動きそうです。
ネタ元は「reddit」の書き込みだそうで、こちらを参照しつつ試しました。

reddit
元記事

「reddit」でワークフローがダウンロードできるので、これを使わせてもらいます。
必要なものは

モデルが以下の2種類

wan2.2_t2v_high_noise_14B_Q5_K_M.gguf
wan2.2_t2v_low_noise_14B_Q5_K_M.gguf

LoRA:

Wan21_T2V_14B_MoviiGen_lora_rank32_fp16.safetensors

「ComfyUI\models\diffusion_models」へコピーします。

書かれていませんが、まっさらな状態で利用する場合、以下のファイルも必要になります。

LoRA:

Wan21_T2V_14B_lightx2v_cfg_step_distill_lora_rank32.safetensors

以下のサイトで落とせます。
https://huggingface.co/joerose/Wan21_T2V_14B_lightx2v_cfg_step_distill_lora_rank32/tree/main

入れる先はこちらです。
「ComfyUI\models\loras」

これで、動作しました。
いろいろ試しましたが、画像のサイズを大きくすると途中で止まるケースもあり、このモデルはサイズで色々ありそうです。
個人的に安定したのは、「420*720」の縦長でした。
色々情報を見ていると、学習データがスマホの縦長が多かったから、縦長の方が得意だろうみたいな話でした。
納得できる話ではありますが、横長の動画を作りにくいのは、ちょっと困りますね。（作ってみましたが作れない事は無いですね）