HuMo AIを軽く使ってみた(ローカル動画生成AI)

HuMo AIを軽く使ってみた(ローカル動画生成AI)

「HuMo AI」が「ComfyUI」から簡単に利用できるようになったので、軽く使って見ました。

この生成AIのポイントが何かというと、

テキスト + 画像
テキスト + オーディオ
テキスト + 画像 + オーディオ

このようにプロンプトに画像やオーディをを合わせた動画を作成できます。
テキスト+画像は、よくあるベース画像にテキストのプロンプトで動きやシーンを指示するものです。
オーディオはリップシンクしてくれるので(最近は当たり前のようにリンプシンクしてくれるので凄いですよね)、テキストの読み上げ音声に合わせて唇が動く動画や、歌に合わせて唇を動かすものから、曲に合わせてダンスする物も作成できる感じです

いろいろ試してみましたが、私の環境「RTX5070 Ti」だと、メモリーの都合で最大6秒ぐらいまでしか生成できませんでした。
ですので、安定して生成できる5秒の動画を作成しています。
ただ、3秒までの生成が、動画のクオリティも上がる感じがするので、5秒まで生成できるが3秒までが推奨のなんだと思います。

では、実際にやってみました。
最初はテキストプロンプトと音楽のみです。

この時の曲や人物を使ってテストします。

プロンプト

20代前半、日本人、ポニーテールで青い髪、Tシャツとデニムのパンツを着た女性が音楽に合わせて踊る
カメラは徐々に引いて女性の全身が画面に入る
0:00
/0:05

謎の人物が踊っている動画ができあがりました。
服装や踊り、カメラワークも比較的オーダー通りになっています。
表情が大きめな印象です。

今度は画像から生成します

画像とテキストと音楽の3つを使って、動画生成していきます。

プロンプト

背景はプールサイド
20代前半、日本人、ポニーテールの女性が音楽に合わせて踊る
カメラは徐々に引いて女性の全身が画面に入る

ベース画像

edited_image (7).webp
こちらの画像を使用しました

生成された動画がこちら

0:00
/0:05

人物は問題ありませんが、服装は環境に合わせて水着になっています。
服装を指定しないと、気を利かせてくれる感じですね。

もう少し別のパターンも作ってみます。

20代前半、日本人、ポニーテールで青い髪の女性が音楽に合わせて踊る
背景は大都市のビルの屋上

結果が以下になります

0:00
/0:05

なんか服装が残念な感じになってますね。
服装の指定をしていないので、適当に作成してくれたようですが、イメージと違うのでちゃんと指定していきます。

この画像の左上、砂浜の画像を使用します。
基本的な服装が含まれていので、この画像を使用すれば服装の一貫性が保たれるはずです。

ベース画像を変えてプロンプトを実行してみます。

20代前半、日本人、ポニーテールで青い髪の女性が音楽に合わせて踊る
カメラは徐々に引いて女性の全身が画面に入る
背景は近未来都心の屋上

結果が以下になります

0:00
/0:05

いい感じに仕上がっています。
屋上かどうかは微妙な感じではありますが、動きも結構激しめですね

もう少し「HuMo AI」で生成した動画を載せていきたいと思います。
雨を降らせたり背景を変えたので、連続して載せておきます。

0:00
/0:05
0:00
/0:05
0:00
/0:06

見て分かるとおり、動きは結構いいが雨がCG感強かったり、いまいちな部分もあるので、得意なシチュエーションに持ち込むのが良いかと思います。
しかし、「HuMo AI」を使っている人の話は「sora」の話題にかき消されるように、あまり見かけませんが、実際に使って見ると悪くないが、時間が短いので使うのが難しいと言った点が惜しいです。
ただ、動きは結構いい感じで、生成時間も5秒で5分程度と良さそうな感じはしますが、ネックは生成可能な時間で、2倍の10秒程度生成できれば・・・とは思いました。

Read more

比較的最近の気になったニュース2026年1月21日

比較的最近の気になったニュース2026年1月21日

まるで成長していない。「USB4」になっても呼び名が混乱している件。Gen 2とか相変わらず分かりにくいまま 本当にUSB企画は分かりにくいというか、使う人の事を考えていないですよね。 USB3の時に規格がぶれまくって、整理するかと思いきや、 USB4になって、何も変わらずグダグダって・・・ なぜ『ボーダーブレイク』は国際的成功の好機を逃してしまったのか―結局日本限定でしか遊べなかった、理想的な「海外ゲーマー向け」作品【オリーさんのロボゲーコラム】 お財布ブレイクでも有名なボーダーブレイクは確かに世界的な人気作品になっても良さそうなゲームルールとデザインだと思うのですが、惜しい作品だと思います。 その辺の経緯や問題などをまとめられていて、非常に読み応えがあったので、興味がある方は是非読んでみてください。 “積みゲー”がタワーとして可視化できるツール「ツミナビ」が無料公開中。Steamアカウントと連携すると、所有しているゲームのリスト化やゲーマータイプ診断、傾向の分析などをおこなってくれる 紹介記事では10本ぐらいのアカウントで試しているようなので、ゲームの所持数が影響

最近気になった記事2026年01月14日

最近気になった記事2026年01月14日

GPT-5.2とGemini3の画像作成で大きな違いが出るのはなぜか GPTとGeminiの設計思想の違いを解説しています。 両方の特徴を理解して使い分ければ、欲しい情報や回答を得やすいって事だと思います。 記事では、以下のように GPT-5.2が考えるAIとして設計 と書かれており、考えをまとめたり問題点を洗い出すなど、何かをする前の準備段階で有効に使えそうで、 Gemini3は次のように書かれていて、 Gemini3は、業務で使われる成果物を作ることを強く意識した設計 最終的にまとめる時や、資料となる画像や具体的な書類を作成するのに向いている感じですね。 記事には以下のように書かれており、 GPT-5.2は、思考から表現へ進みます。Gemini3は、成果物から構成を逆算 GPT-5.2は優秀な戦略コンサルタントです。Gemini3は優秀な資料作成担当 アプローチが真逆なのが面白いですね。 だからこそ、使うタイミングや使い方が大事だと分かります。 更に、 日本語の文字化け問題は、すべての言語で同じように起きているわけではありません。 と書かれていて、そ

あけおめ動画を色々なAI動画生成で作ってみた

あけおめ動画を色々なAI動画生成で作ってみた

最近色々と忙しくて更新をサボっていましたが、久々の更新が「あけおめ」ですみません。 生成サービスで違いがあるので、その辺も含めてお楽しみください。 まずプロンプトですが、 全体的に日本のアニメ調にしてください。 日本の正月の挨拶用動画を作成してください。 画面上部に日本語で「あけましておめでとう」と毛筆で書いているように表示してください 画面下部にデフォルメしたリスを表示して正面へ向かって手を振ってください 画面左右に門松を配置してください 画面の左下に「AIS」と表記してください 正月の背景は日本っぽい風景にしてください といったプロンプトで作成していきます。 日本語の文字生成はsoraしか再現できないので、 画面上部に日本語で「あけましておめでとう」と毛筆で書いているように表示してください このプロンプトを削除して、文字以外で生成します。 必要なら後から動画編集ソフトで、文字を入れればいいかなと思います。 それでは、各動画生成AIで作成した動画を見ていきます。 最初はwan2.2で作成 ローカルで作成できるため、制限が無いので、数を作成しています。 一挙に3本

自分のSTEAMリプレイ2025の話

自分のSTEAMリプレイ2025の話

もう、今年もは終わりに近づいてきたので、2025年に遊んだSteamのゲームを振り返ってみたいと思います。 aisのSTEAMリプレイ2025 https://s.team/y25/jhcqwnq?l=japanese 公開に設定しているので、気になる方は見てみてください。 Steamのゲームを遊びたいと思いつつ、いまいち遊べていない感じがしていましたが、遊んでいるゲーム数も減っているので、コードレッドですw 動画の編集が意外と時間かかっているので、ここを少し省略したいなとか、「Super Mining Mechs」の動画編集が地味に時間かかっているのですが、無事最終回を迎えたので、少し楽になるかなと思います。 「Super Mining Mechs」プレイリスト プレイしたゲーム数が15本減っているみたいです。 去年も一昨年と比べて、かなり減っていたので、やばいですw 本数を沢山やればいいってもんじゃ無いですが、ゲームを遊んでいる時間も減っているので、じかんをつくれる男になろうと思いますw ほぼ半減で、実績の減りが凄いですw ゲームによって違うので、一概には言えませんが、や