評判の動画生成AIの「ConmfyUI」で「Wan2.2」省メモリー版を使ってみた

評判の動画生成AIの「ConmfyUI」で「Wan2.2」省メモリー版を使ってみた

「ConmfyUI」の標準的テンプレートを使用してみましたが、「RTX5070 Ti 16GB」だととりあえず動きますが、動作のサイズや時間でメモリー不足になってしまします。
また、調節も色々難しくて、動画のサイズで生成中に止まったり、なかなか思うように生成できません。
昨日の記事でも載せましたが、初期状態で何もいじらずに、動画を作成した時の内容です。

0:00
/0:05

5秒だけですが凄いですよね。
水滴の動きまでちゃんと表現できています。
時間を延ばそうと色々と設定を変えたり、プロンプトを変えてみましたが、時間を延ばすとメモリーが足りなくなります。

そんな時、
ComfyUIでWan2.2をLoRAを使って軽量化し、RTX3060で動かす

こんな記事が流れてきました。
少ないメモリーで動かす試みです。
これを適用すれば、メモリー不足が緩和されて、動画サイズや時間を伸ばしてもうまく動きそうです。
ネタ元は「reddit」の書き込みだそうで、こちらを参照しつつ試しました。

reddit
元記事

「reddit」でワークフローがダウンロードできるので、これを使わせてもらいます。
必要なものは

モデルが以下の2種類

wan2.2_t2v_high_noise_14B_Q5_K_M.gguf
wan2.2_t2v_low_noise_14B_Q5_K_M.gguf

LoRA:

Wan21_T2V_14B_MoviiGen_lora_rank32_fp16.safetensors

「ComfyUI\models\diffusion_models」へコピーします。

書かれていませんが、まっさらな状態で利用する場合、以下のファイルも必要になります。

LoRA:

Wan21_T2V_14B_lightx2v_cfg_step_distill_lora_rank32.safetensors

以下のサイトで落とせます。
https://huggingface.co/joerose/Wan21_T2V_14B_lightx2v_cfg_step_distill_lora_rank32/tree/main

入れる先はこちらです。
「ComfyUI\models\loras」

これで、動作しました。
いろいろ試しましたが、画像のサイズを大きくすると途中で止まるケースもあり、このモデルはサイズで色々ありそうです。
個人的に安定したのは、「420*720」の縦長でした。
色々情報を見ていると、学習データがスマホの縦長が多かったから、縦長の方が得意だろうみたいな話でした。
納得できる話ではありますが、横長の動画を作りにくいのは、ちょっと困りますね。(作ってみましたが作れない事は無いですね)

実際に作ってみた動画です
コーヒーを飲むメイドさん

0:00
/0:05

踊るメイドさん

0:00
/0:15

なぜかめっちゃ雪が降ってます。
15秒と長めにしたら、80分程度の時間がかかりました。
雪に関しては、プロンプトには含めていないので、謎ですw
むしろプロンプトに天気や気候の情報を入れれば良かったかもです。

今度はアニメ絵です。

0:00
/0:05

このクオリティーで5秒5分かからないって・・・これまた凄いですよね。サイズは480*720ですけど。
テキストから作成できるので、詳しくテキストで描写すれば、かなり忠実に作成してくれます。

女の子ばかりじゃ無くて、こんなのも

0:00
/0:05

ビルの解体爆破をやろうと思ったら・・・・

なかなかうまくいかない物ですw
もう少し実験して、成果があったらまた書きます。

最後に失敗した解体現場をお送りしますw

0:00
/0:05

Read more

比較的最近の気になったニュース11月26日

比較的最近の気になったニュース11月26日

ここ最近色々追いつかなくて、更新が滞っております・・・・ 書きかけの記事も何個かあって・・・ぐぬぬ そんな訳で、最近気になったニュースです。 エレコム、よくやった! ひと目で「仕様」がわかるUSB-Cケーブル登場 USBケーブルって凄く種類が多くて、規格を考えた奴土下座しろって言いたくなりますw データーの転送速度と、電気の流量の組み合わせで性能に差があり、100Wの電気が流せるのに、データの転送速度が「USB2.0」相当とか・・・ 「USB3.1 Gen1」は「USB2.0」の約10倍ぐらいの速度なので、差が激しいですよね。それが全く書かれていないし、分からないケーブルも沢山あるので書いてくれるとありがたいですね。 USB Cable Checker3 ちなみにこんな製品も出ていて、USBケーブルの性能をテストできます。 実は持っている上に、クラファンで購入したので、ブログに書こうと思っているので、その内書きます。 AIは著者が中国人であることが明らかになると途端に「反中」モードになることが判明:特にDeepSeekが顕著な傾向 面白い記事ですね。学習元の影響が大きい

ローカルで効果音が作成できるAI「MMAudio」を使ってみた(「Waves Place」と同じ効果音も作ってみました)

ローカルで効果音が作成できるAI「MMAudio」を使ってみた(「Waves Place」と同じ効果音も作ってみました)

MMAudio は、ビデオやテキストや画像の入力が与えられると、動画は同期されたオーディオ、画像はそれに合った音を生成します。 使用方法は Pinokio https://pinokio.co/ こちらのアプリからインストールして、「MMAudio」を使います。 インストール方法などは別記事を書きたいと思います。 比較対象として 時計のG-shockでおなじみのCASIO(カシオ)の新サービス!AIで効果音が生成できる「Waves Place」を試してみた の記事と比較しやすいように、同じようなプロンプトで作成します。 MMAudio は、ビデオやテキストや画像の入力が与えられると、動画は同期されたオーディオ、画像はそれに合った音を生成します。 使い方が非常に簡単な上に、動画に合わせて生成できるのも使い勝手がいいですね。カシオの「Waves Place」はテキストからだけだったので、こちらの方が少し上な感じがします。 実際にできるのは、 ・テキストから効果音生成 ・画像から効果の音生成 ・動画に合わせて効果音生成 前に「Waves Place」用に作成した動画が、丁

久々にオールインワンのコード生成「DeepSite」を使ってみた

久々にオールインワンのコード生成「DeepSite」を使ってみた

AIがWEBサイトをコーディングしてくれるサービスです。 DeepSite https://huggingface.co/spaces/enzostvs/deepsite 今回はテトリスっぽいゲームを作ってもらいました 今回の完成品 https://iaisd9-blocky-blitz-bonanza.static.hf.space/index.html では本題です。 アカウント(無料)を作ると、完成品をこのように公開できます。 ちなみに無料のユーザー登録すると、制作物を「DeepSite」で公開できる機能もあるので便利です(今回はその機能を使っています)。 複数のページが相互接続された複雑なウェブサイトを構築できます。 シンプルなランディングページから、動的なルーティングとナビゲーションを備えたフル機能のウェブアプリケーションまで、あらゆるものを構築できます。 と言う事で、WEBページであれば、かなりの物を作成できるサービスなので、当然ブラウザで遊べるゲームも作る事ができるので、テトリス的なゲームを作ってもらいました。 このサービスに限らず、既にWEB

時計のG-shockでおなじみのCASIO(カシオ)の新サービス!AIで効果音が生成できる「Waves Place」を試してみた

時計のG-shockでおなじみのCASIO(カシオ)の新サービス!AIで効果音が生成できる「Waves Place」を試してみた

前に気になっていたけど、試していなかったので、今回試してみました。 CASIOのアカウントを作成する必要があります。 ちょっとめんどいですが、無料で試せるのでとりあえず作成して試してみました。 一応プレスリリースです。 AIで効果音が生成できる「Waves Place」とライブ配信専用スケジューラー「Streamer Times」を正式リリース 実際どんな交換が生成できるのか、結構気にはなってます。 効果音系のアプリも実は持っているので、そんなのと比較もしてみたいですが、今回はこのサービスがどんな感じかを試します。 まず、料金プランのリンクです。最新情報はこちらを参照してください。 一応現在時点のプランです。 フリープランでは商用は不可ですね。 「starter」プラン以降で商用利用可能です。 フリーだと月20回までお試しできる感じです。 月千円(「starter」プラン)で800回って事なので、普通は「starter」プランで使い切れない気がします。 使うとすると、基本的に必要な時に有料プランして、終わったらフリーに戻すみたいな使い方になりそうなサービスです。 実際