HuMo AIを軽く使ってみた(ローカル動画生成AI)
「HuMo AI」が「ComfyUI」から簡単に利用できるようになったので、軽く使って見ました。
この生成AIのポイントが何かというと、
テキスト + 画像
テキスト + オーディオ
テキスト + 画像 + オーディオ
このようにプロンプトに画像やオーディをを合わせた動画を作成できます。
テキスト+画像は、よくあるベース画像にテキストのプロンプトで動きやシーンを指示するものです。
オーディオはリップシンクしてくれるので(最近は当たり前のようにリンプシンクしてくれるので凄いですよね)、テキストの読み上げ音声に合わせて唇が動く動画や、歌に合わせて唇を動かすものから、曲に合わせてダンスする物も作成できる感じです
いろいろ試してみましたが、私の環境「RTX5070 Ti」だと、メモリーの都合で最大6秒ぐらいまでしか生成できませんでした。
ですので、安定して生成できる5秒の動画を作成しています。
ただ、3秒までの生成が、動画のクオリティも上がる感じがするので、5秒まで生成できるが3秒までが推奨のなんだと思います。
では、実際にやってみました。
最初はテキストプロンプトと音楽のみです。
この時の曲や人物を使ってテストします。
プロンプト
20代前半、日本人、ポニーテールで青い髪、Tシャツとデニムのパンツを着た女性が音楽に合わせて踊る
カメラは徐々に引いて女性の全身が画面に入る
謎の人物が踊っている動画ができあがりました。
服装や踊り、カメラワークも比較的オーダー通りになっています。
表情が大きめな印象です。
今度は画像から生成します
画像とテキストと音楽の3つを使って、動画生成していきます。
プロンプト
背景はプールサイド
20代前半、日本人、ポニーテールの女性が音楽に合わせて踊る
カメラは徐々に引いて女性の全身が画面に入る
ベース画像

こちらの画像を使用しました
生成された動画がこちら
人物は問題ありませんが、服装は環境に合わせて水着になっています。
服装を指定しないと、気を利かせてくれる感じですね。
もう少し別のパターンも作ってみます。
20代前半、日本人、ポニーテールで青い髪の女性が音楽に合わせて踊る
背景は大都市のビルの屋上
結果が以下になります
なんか服装が残念な感じになってますね。
服装の指定をしていないので、適当に作成してくれたようですが、イメージと違うのでちゃんと指定していきます。

この画像の左上、砂浜の画像を使用します。
基本的な服装が含まれていので、この画像を使用すれば服装の一貫性が保たれるはずです。
ベース画像を変えてプロンプトを実行してみます。
20代前半、日本人、ポニーテールで青い髪の女性が音楽に合わせて踊る
カメラは徐々に引いて女性の全身が画面に入る
背景は近未来都心の屋上
結果が以下になります
いい感じに仕上がっています。
屋上かどうかは微妙な感じではありますが、動きも結構激しめですね
もう少し「HuMo AI」で生成した動画を載せていきたいと思います。
雨を降らせたり背景を変えたので、連続して載せておきます。
見て分かるとおり、動きは結構いいが雨がCG感強かったり、いまいちな部分もあるので、得意なシチュエーションに持ち込むのが良いかと思います。
しかし、「HuMo AI」を使っている人の話は「sora」の話題にかき消されるように、あまり見かけませんが、実際に使って見ると悪くないが、時間が短いので使うのが難しいと言った点が惜しいです。
ただ、動きは結構いい感じで、生成時間も5秒で5分程度と良さそうな感じはしますが、ネックは生成可能な時間で、2倍の10秒程度生成できれば・・・とは思いました。