HuMo AIを軽く使ってみた（ローカル動画生成AI）

ais

08 Oct 2025 — 3 min read

「HuMo AI」が「ComfyUI」から簡単に利用できるようになったので、軽く使って見ました。

この生成AIのポイントが何かというと、

テキスト + 画像
テキスト + オーディオ
テキスト + 画像 + オーディオ

このようにプロンプトに画像やオーディをを合わせた動画を作成できます。
テキスト+画像は、よくあるベース画像にテキストのプロンプトで動きやシーンを指示するものです。
オーディオはリップシンクしてくれるので（最近は当たり前のようにリンプシンクしてくれるので凄いですよね）、テキストの読み上げ音声に合わせて唇が動く動画や、歌に合わせて唇を動かすものから、曲に合わせてダンスする物も作成できる感じです

いろいろ試してみましたが、私の環境「RTX5070 Ti」だと、メモリーの都合で最大6秒ぐらいまでしか生成できませんでした。
ですので、安定して生成できる5秒の動画を作成しています。
ただ、3秒までの生成が、動画のクオリティも上がる感じがするので、5秒まで生成できるが3秒までが推奨のなんだと思います。

では、実際にやってみました。
最初はテキストプロンプトと音楽のみです。

この時の曲や人物を使ってテストします。

プロンプト

２０代前半、日本人、ポニーテールで青い髪、Tシャツとデニムのパンツを着た女性が音楽に合わせて踊る
カメラは徐々に引いて女性の全身が画面に入る

0:00

/0:05

謎の人物が踊っている動画ができあがりました。
服装や踊り、カメラワークも比較的オーダー通りになっています。
表情が大きめな印象です。

今度は画像から生成します

画像とテキストと音楽の3つを使って、動画生成していきます。

プロンプト

背景はプールサイド
２０代前半、日本人、ポニーテールの女性が音楽に合わせて踊る
カメラは徐々に引いて女性の全身が画面に入る

ベース画像

edited_image (7).webp
こちらの画像を使用しました

生成された動画がこちら

0:00

/0:05

人物は問題ありませんが、服装は環境に合わせて水着になっています。
服装を指定しないと、気を利かせてくれる感じですね。

もう少し別のパターンも作ってみます。

２０代前半、日本人、ポニーテールで青い髪の女性が音楽に合わせて踊る
背景は大都市のビルの屋上

結果が以下になります

0:00

/0:05

なんか服装が残念な感じになってますね。
服装の指定をしていないので、適当に作成してくれたようですが、イメージと違うのでちゃんと指定していきます。

この画像の左上、砂浜の画像を使用します。
基本的な服装が含まれていので、この画像を使用すれば服装の一貫性が保たれるはずです。

ベース画像を変えてプロンプトを実行してみます。

２０代前半、日本人、ポニーテールで青い髪の女性が音楽に合わせて踊る
カメラは徐々に引いて女性の全身が画面に入る
背景は近未来都心の屋上

結果が以下になります

0:00

/0:05

いい感じに仕上がっています。
屋上かどうかは微妙な感じではありますが、動きも結構激しめですね

もう少し「HuMo AI」で生成した動画を載せていきたいと思います。
雨を降らせたり背景を変えたので、連続して載せておきます。

0:00

/0:05

0:00

/0:05

0:00

/0:06

見て分かるとおり、動きは結構いいが雨がＣＧ感強かったり、いまいちな部分もあるので、得意なシチュエーションに持ち込むのが良いかと思います。
しかし、「HuMo AI」を使っている人の話は「sora」の話題にかき消されるように、あまり見かけませんが、実際に使って見ると悪くないが、時間が短いので使うのが難しいと言った点が惜しいです。
ただ、動きは結構いい感じで、生成時間も５秒で５分程度と良さそうな感じはしますが、ネックは生成可能な時間で、２倍の１０秒程度生成できれば・・・とは思いました。

「ガチョウ（goose）」や「アヒル（duck）」の名前が付いているサービス名を見かけるのでAIに聞いてみた

「ガチョウ（goose）」や「アヒル（duck）」の名前を使ったサービスやアプリをちょいちょい見かけるので、なんでかなと思ってAIに聞いてみました。「GPT-5.2」を使用してます。事の発端ですが、ガチョウとかアヒルって外人好きだよなって思う事があって、プライバーシー重視の検索サービス「DuckDuckGo」とか、AIエージェントの「goose」とか、VPNサービス「GOOSE VPN」など他にもありそうなので、軽く検索して、探してみました。軽く検索した結果（探せばもっとあるはず）サービス概要名前検索サービス DuckDuckGo ゲームエスケープフロムダッコフ AIエージェント goose 見守りサービス GOOSE ダウンジャケット CANADA GOOSE 水鳥を自動カウントするサービス Goose 1・2・3 VPNサービス GOOSE VPN

比較的最近の気になったAI関連ニュース２０２６年０２月２３日

なぜAIは学習していない画像を生成できるのか？──創造性をめぐる最新研究 AIの画像生成は、単なるコピペとかのレベルを遙かに超えていますが、AIがどう動いているのかは、まだ完全には解明されていません。 AIの動作を現在分かっている事や、説なんかを解説している記事です。気になる方は読んでみてください。 AIの内部に脳の「報酬系」に酷似したシステムを発見：大規模言語モデルの知能を支える1%のドーパミンニューロンと価値回路の正体 AIの仕組みに関しての研究です。人間の脳と同じような動きをAIもしている話なので、色々考えさせられます。結構面白いです。サーバーワークス、Anthropicの生成AIモデル「Claude」をAWS上で正規ライセンス販売コード生成AIは、コードを一度サーバーに送るので、漏洩などの心配から利用できない企業も多かったですが、この仕組みを使うとAWSで自社専用に借りたサーバーで「Claude」を動かす事が出来るので、使いやすい会社も多くなりそうな仕組みです。他に比べて使い勝手が良くるので、「Claude」が更に強くなりそうです。 AMDがグリグリ

音楽生成AI「ACE-Step v1.5」が本当に「Suno v4.5」を越えるのか聞き比べできるようにしてみた

こんな記事があったので、実際にsunoでも同じ歌詞の曲を作って比較してみます。無料で「Suno v4.5」超え？　音楽生成AI「ACE-Step v1.5」公開　個人向けGPUでも動作「ACE-Step v1.5」は、ComfyUIにテンプレートがあるので、簡単に利用できまます。軽く曲を作って、「suno v4.5」でも作成してみます。ついでに「suno v5.0」でも作成して、比較してみたいと思います。まずは、作成する曲についてです。曲調などのスタイルは Style Prompt: Acoustic Guitar, Folk, Country, Warm, Upbeat, Female vocal このような指定で、ギター中心のカントリーで、ボーカルは女性を指定しました。続いて歌詞ですが、以下のような歌詞です。ちなみに「Cast

キシリトールって歯に本当にいいの？エリスリトールとアルロースって何？AIに聞いて調べてみた！

キシリトールガムなどが出てから、キシリトールは歯に良いって話があるのですが、科学的にどうなのか？調べると近しい甘味料としてエリスリトールとアルロースが出てきましたが、これってって何？その辺をAIに聞いて調べました。今回使用したAIです。 Gemini3 PRO gpt-oss:120b(ローカル) GPT5.2 など高性能なAIを取りそろえて、色々聞いた結果をまとめています。とは言え、結論が欲しい方のために最初に結論を比較できるようにまとめました。内容をもう少し掘り下げたい人は、その先を読んでもらえればと思います。しかもNANObananaにわかりやすい画像にまとめてもらったので、こちらを見れば一目瞭然です。まずは、歯への影響です。キシリトールなんかは分かっていましたが、エリスリトールがかなり優秀です。次は、人体への影響です。歯に良くても体に負担がかかると良くありません。キシリトールはお腹がゆるくなる問題がありますし。こうして見てみると、歯にとってはエリスリトールが優秀ですね。そして、ダイエットならアルロースって感じでしょうか。

テキスト + 画像テキスト + オーディオテキスト + 画像 + オーディオ

では、実際にやってみました。最初はテキストプロンプトと音楽のみです。

この時の曲や人物を使ってテストします。

プロンプト

今度は画像から生成します

プロンプト

ベース画像

生成された動画がこちら

もう少し別のパターンも作ってみます。

結果が以下になります

ベース画像を変えてプロンプトを実行してみます。

結果が以下になります

もう少し「HuMo AI」で生成した動画を載せていきたいと思います。雨を降らせたり背景を変えたので、連続して載せておきます。

Read more

「ガチョウ（goose）」や「アヒル（duck）」の名前が付いているサービス名を見かけるのでAIに聞いてみた

比較的最近の気になったAI関連ニュース２０２６年０２月２３日

音楽生成AI「ACE-Step v1.5」が本当に「Suno v4.5」を越えるのか聞き比べできるようにしてみた

キシリトールって歯に本当にいいの？エリスリトールとアルロースって何？AIに聞いて調べてみた！

テキスト + 画像
テキスト + オーディオ
テキスト + 画像 + オーディオ

では、実際にやってみました。
最初はテキストプロンプトと音楽のみです。

もう少し「HuMo AI」で生成した動画を載せていきたいと思います。
雨を降らせたり背景を変えたので、連続して載せておきます。