HuMo AIを軽く使ってみた(ローカル動画生成AI)

HuMo AIを軽く使ってみた(ローカル動画生成AI)

「HuMo AI」が「ComfyUI」から簡単に利用できるようになったので、軽く使って見ました。

この生成AIのポイントが何かというと、

テキスト + 画像
テキスト + オーディオ
テキスト + 画像 + オーディオ

このようにプロンプトに画像やオーディをを合わせた動画を作成できます。
テキスト+画像は、よくあるベース画像にテキストのプロンプトで動きやシーンを指示するものです。
オーディオはリップシンクしてくれるので(最近は当たり前のようにリンプシンクしてくれるので凄いですよね)、テキストの読み上げ音声に合わせて唇が動く動画や、歌に合わせて唇を動かすものから、曲に合わせてダンスする物も作成できる感じです

いろいろ試してみましたが、私の環境「RTX5070 Ti」だと、メモリーの都合で最大6秒ぐらいまでしか生成できませんでした。
ですので、安定して生成できる5秒の動画を作成しています。
ただ、3秒までの生成が、動画のクオリティも上がる感じがするので、5秒まで生成できるが3秒までが推奨のなんだと思います。

では、実際にやってみました。
最初はテキストプロンプトと音楽のみです。

この時の曲や人物を使ってテストします。

プロンプト

20代前半、日本人、ポニーテールで青い髪、Tシャツとデニムのパンツを着た女性が音楽に合わせて踊る
カメラは徐々に引いて女性の全身が画面に入る
0:00
/0:05

謎の人物が踊っている動画ができあがりました。
服装や踊り、カメラワークも比較的オーダー通りになっています。
表情が大きめな印象です。

今度は画像から生成します

画像とテキストと音楽の3つを使って、動画生成していきます。

プロンプト

背景はプールサイド
20代前半、日本人、ポニーテールの女性が音楽に合わせて踊る
カメラは徐々に引いて女性の全身が画面に入る

ベース画像

edited_image (7).webp
こちらの画像を使用しました

生成された動画がこちら

0:00
/0:05

人物は問題ありませんが、服装は環境に合わせて水着になっています。
服装を指定しないと、気を利かせてくれる感じですね。

もう少し別のパターンも作ってみます。

20代前半、日本人、ポニーテールで青い髪の女性が音楽に合わせて踊る
背景は大都市のビルの屋上

結果が以下になります

0:00
/0:05

なんか服装が残念な感じになってますね。
服装の指定をしていないので、適当に作成してくれたようですが、イメージと違うのでちゃんと指定していきます。

この画像の左上、砂浜の画像を使用します。
基本的な服装が含まれていので、この画像を使用すれば服装の一貫性が保たれるはずです。

ベース画像を変えてプロンプトを実行してみます。

20代前半、日本人、ポニーテールで青い髪の女性が音楽に合わせて踊る
カメラは徐々に引いて女性の全身が画面に入る
背景は近未来都心の屋上

結果が以下になります

0:00
/0:05

いい感じに仕上がっています。
屋上かどうかは微妙な感じではありますが、動きも結構激しめですね

もう少し「HuMo AI」で生成した動画を載せていきたいと思います。
雨を降らせたり背景を変えたので、連続して載せておきます。

0:00
/0:05
0:00
/0:05
0:00
/0:06

見て分かるとおり、動きは結構いいが雨がCG感強かったり、いまいちな部分もあるので、得意なシチュエーションに持ち込むのが良いかと思います。
しかし、「HuMo AI」を使っている人の話は「sora」の話題にかき消されるように、あまり見かけませんが、実際に使って見ると悪くないが、時間が短いので使うのが難しいと言った点が惜しいです。
ただ、動きは結構いい感じで、生成時間も5秒で5分程度と良さそうな感じはしますが、ネックは生成可能な時間で、2倍の10秒程度生成できれば・・・とは思いました。

Read more

比較的最近の気になったニュース11月26日

比較的最近の気になったニュース11月26日

ここ最近色々追いつかなくて、更新が滞っております・・・・ 書きかけの記事も何個かあって・・・ぐぬぬ そんな訳で、最近気になったニュースです。 エレコム、よくやった! ひと目で「仕様」がわかるUSB-Cケーブル登場 USBケーブルって凄く種類が多くて、規格を考えた奴土下座しろって言いたくなりますw データーの転送速度と、電気の流量の組み合わせで性能に差があり、100Wの電気が流せるのに、データの転送速度が「USB2.0」相当とか・・・ 「USB3.1 Gen1」は「USB2.0」の約10倍ぐらいの速度なので、差が激しいですよね。それが全く書かれていないし、分からないケーブルも沢山あるので書いてくれるとありがたいですね。 USB Cable Checker3 ちなみにこんな製品も出ていて、USBケーブルの性能をテストできます。 実は持っている上に、クラファンで購入したので、ブログに書こうと思っているので、その内書きます。 AIは著者が中国人であることが明らかになると途端に「反中」モードになることが判明:特にDeepSeekが顕著な傾向 面白い記事ですね。学習元の影響が大きい

ローカルで効果音が作成できるAI「MMAudio」を使ってみた(「Waves Place」と同じ効果音も作ってみました)

ローカルで効果音が作成できるAI「MMAudio」を使ってみた(「Waves Place」と同じ効果音も作ってみました)

MMAudio は、ビデオやテキストや画像の入力が与えられると、動画は同期されたオーディオ、画像はそれに合った音を生成します。 使用方法は Pinokio https://pinokio.co/ こちらのアプリからインストールして、「MMAudio」を使います。 インストール方法などは別記事を書きたいと思います。 比較対象として 時計のG-shockでおなじみのCASIO(カシオ)の新サービス!AIで効果音が生成できる「Waves Place」を試してみた の記事と比較しやすいように、同じようなプロンプトで作成します。 MMAudio は、ビデオやテキストや画像の入力が与えられると、動画は同期されたオーディオ、画像はそれに合った音を生成します。 使い方が非常に簡単な上に、動画に合わせて生成できるのも使い勝手がいいですね。カシオの「Waves Place」はテキストからだけだったので、こちらの方が少し上な感じがします。 実際にできるのは、 ・テキストから効果音生成 ・画像から効果の音生成 ・動画に合わせて効果音生成 前に「Waves Place」用に作成した動画が、丁

久々にオールインワンのコード生成「DeepSite」を使ってみた

久々にオールインワンのコード生成「DeepSite」を使ってみた

AIがWEBサイトをコーディングしてくれるサービスです。 DeepSite https://huggingface.co/spaces/enzostvs/deepsite 今回はテトリスっぽいゲームを作ってもらいました 今回の完成品 https://iaisd9-blocky-blitz-bonanza.static.hf.space/index.html では本題です。 アカウント(無料)を作ると、完成品をこのように公開できます。 ちなみに無料のユーザー登録すると、制作物を「DeepSite」で公開できる機能もあるので便利です(今回はその機能を使っています)。 複数のページが相互接続された複雑なウェブサイトを構築できます。 シンプルなランディングページから、動的なルーティングとナビゲーションを備えたフル機能のウェブアプリケーションまで、あらゆるものを構築できます。 と言う事で、WEBページであれば、かなりの物を作成できるサービスなので、当然ブラウザで遊べるゲームも作る事ができるので、テトリス的なゲームを作ってもらいました。 このサービスに限らず、既にWEB

時計のG-shockでおなじみのCASIO(カシオ)の新サービス!AIで効果音が生成できる「Waves Place」を試してみた

時計のG-shockでおなじみのCASIO(カシオ)の新サービス!AIで効果音が生成できる「Waves Place」を試してみた

前に気になっていたけど、試していなかったので、今回試してみました。 CASIOのアカウントを作成する必要があります。 ちょっとめんどいですが、無料で試せるのでとりあえず作成して試してみました。 一応プレスリリースです。 AIで効果音が生成できる「Waves Place」とライブ配信専用スケジューラー「Streamer Times」を正式リリース 実際どんな交換が生成できるのか、結構気にはなってます。 効果音系のアプリも実は持っているので、そんなのと比較もしてみたいですが、今回はこのサービスがどんな感じかを試します。 まず、料金プランのリンクです。最新情報はこちらを参照してください。 一応現在時点のプランです。 フリープランでは商用は不可ですね。 「starter」プラン以降で商用利用可能です。 フリーだと月20回までお試しできる感じです。 月千円(「starter」プラン)で800回って事なので、普通は「starter」プランで使い切れない気がします。 使うとすると、基本的に必要な時に有料プランして、終わったらフリーに戻すみたいな使い方になりそうなサービスです。 実際