HuMo AIを軽く使ってみた(ローカル動画生成AI)

Share
HuMo AIを軽く使ってみた(ローカル動画生成AI)

「HuMo AI」が「ComfyUI」から簡単に利用できるようになったので、軽く使って見ました。

この生成AIのポイントが何かというと、

テキスト + 画像
テキスト + オーディオ
テキスト + 画像 + オーディオ

このようにプロンプトに画像やオーディをを合わせた動画を作成できます。
テキスト+画像は、よくあるベース画像にテキストのプロンプトで動きやシーンを指示するものです。
オーディオはリップシンクしてくれるので(最近は当たり前のようにリンプシンクしてくれるので凄いですよね)、テキストの読み上げ音声に合わせて唇が動く動画や、歌に合わせて唇を動かすものから、曲に合わせてダンスする物も作成できる感じです

いろいろ試してみましたが、私の環境「RTX5070 Ti」だと、メモリーの都合で最大6秒ぐらいまでしか生成できませんでした。
ですので、安定して生成できる5秒の動画を作成しています。
ただ、3秒までの生成が、動画のクオリティも上がる感じがするので、5秒まで生成できるが3秒までが推奨のなんだと思います。

では、実際にやってみました。
最初はテキストプロンプトと音楽のみです。

この時の曲や人物を使ってテストします。

プロンプト

20代前半、日本人、ポニーテールで青い髪、Tシャツとデニムのパンツを着た女性が音楽に合わせて踊る
カメラは徐々に引いて女性の全身が画面に入る
0:00
/0:05

謎の人物が踊っている動画ができあがりました。
服装や踊り、カメラワークも比較的オーダー通りになっています。
表情が大きめな印象です。

今度は画像から生成します

画像とテキストと音楽の3つを使って、動画生成していきます。

プロンプト

背景はプールサイド
20代前半、日本人、ポニーテールの女性が音楽に合わせて踊る
カメラは徐々に引いて女性の全身が画面に入る

ベース画像

edited_image (7).webp
こちらの画像を使用しました

生成された動画がこちら

0:00
/0:05

人物は問題ありませんが、服装は環境に合わせて水着になっています。
服装を指定しないと、気を利かせてくれる感じですね。

もう少し別のパターンも作ってみます。

20代前半、日本人、ポニーテールで青い髪の女性が音楽に合わせて踊る
背景は大都市のビルの屋上

結果が以下になります

0:00
/0:05

なんか服装が残念な感じになってますね。
服装の指定をしていないので、適当に作成してくれたようですが、イメージと違うのでちゃんと指定していきます。

この画像の左上、砂浜の画像を使用します。
基本的な服装が含まれていので、この画像を使用すれば服装の一貫性が保たれるはずです。

ベース画像を変えてプロンプトを実行してみます。

20代前半、日本人、ポニーテールで青い髪の女性が音楽に合わせて踊る
カメラは徐々に引いて女性の全身が画面に入る
背景は近未来都心の屋上

結果が以下になります

0:00
/0:05

いい感じに仕上がっています。
屋上かどうかは微妙な感じではありますが、動きも結構激しめですね

もう少し「HuMo AI」で生成した動画を載せていきたいと思います。
雨を降らせたり背景を変えたので、連続して載せておきます。

0:00
/0:05
0:00
/0:05
0:00
/0:06

見て分かるとおり、動きは結構いいが雨がCG感強かったり、いまいちな部分もあるので、得意なシチュエーションに持ち込むのが良いかと思います。
しかし、「HuMo AI」を使っている人の話は「sora」の話題にかき消されるように、あまり見かけませんが、実際に使って見ると悪くないが、時間が短いので使うのが難しいと言った点が惜しいです。
ただ、動きは結構いい感じで、生成時間も5秒で5分程度と良さそうな感じはしますが、ネックは生成可能な時間で、2倍の10秒程度生成できれば・・・とは思いました。

Read more

自動的にカラオケっぽい歌詞を付けるアプリを作ってみた結果

自動的にカラオケっぽい歌詞を付けるアプリを作ってみた結果

sunoで作成した曲に歌詞を付けるのが手間だなぁ~と常々思っていたのですが、これを効率化したいと言う事で、今回は歌を解析して歌詞を指定すればタイミングを合わせて配置してくれるアプリを作ってみました。 せっかく作ったので少し解説と、どんな物が作れるのか、デモの動画と少し解説をしますが、アプリそのものはライセンスの問題で非公開です。 実際にこのツールで作成した動画を3本ほど紹介 スペルトナエル サイコロ勇者と魔王の城 アトミックピクニック 見てもらうと分かりますが、これが思ったより簡単に作れるようになったので、現在のように短期間で作れるようになりました。 歌詞入りで曲を公開する場合に、歌詞を入れる作業に時間がかかる割に、イマイチなできになる事も多いので、クオリティーが安定したのも良かったです。 では、次の動画で実際にツールを使って曲に歌詞を入れていきます。 使用しているAIのライセンス問題で、手軽に公開できないのと、需要がそれ程無さそうなので、こんなアプリで動画作成してますよって紹介になります。 音源さえ用意すれば、カラオケも作れちゃいます。 カラオケの例です。

ある人から、MarkdownのテキストをPDFにしてくれる何かが欲しいと言われたので、Claude Codeで作る事にした

ある人から、MarkdownのテキストをPDFにしてくれる何かが欲しいと言われたので、Claude Codeで作る事にした

実際、AIはMarkdownで解答を返してくる事が多く、普通に使っているだけでも、Markdown形式のテキストが手軽に表示したり、PDFに変換できると便利だと思うので、ブラウザで手軽に使える物を作りました。 作成後WEB上にアップしたのが以下のURLになります。 https://test.aisgm.me/test_prog/app/md2pdf/ VS Codeのプラグイン入れれば、同じ事は出来ますし、他にも同じようなアプリを作っている人がいるので、それを使うのも手なんですが、最近は怪しいサイトも多いですし、広告が大量に出るものも多いです。 更に、プラグインがウィルスに汚染されているケースなんかもニュースになっているので、セキュリティー的に使った事が無いものを人に勧めるのも怖いです。 そんな訳で、手軽に使えてインストール等の面倒な準備が必要無いってなると、WEBアプリでアクセスすれば使えて、ローカルで処理させるのが良さそうです。 配布やインストールの手間も必要無く、使いたい時にネットに繋がって、ブラウザさえあれば動くので一番使い勝手がいいですよね。 ってな訳で、Claude

画像フォーマットに関する記事を見て色々と深掘りしてみた

画像フォーマットに関する記事を見て色々と深掘りしてみた

画像フォーマットの正体とWebPの「予測マジック」を理解する 次世代画像フォーマットAVIFを触ってみた 割と最近の画像圧縮フォーマットについてです。 「webp」は比較的見るようになったフォーマットですが、従来は画像のサイズが小さいのはJPGで、透明色が使えて画質を維持するのがPNGって感じで、使い分けられていると思います。 しかし、JPGは古いフォーマットで圧縮アルゴリズムも古い上に、透明色が使えないなど改良の余地が多々あるので、「JPEG 2000」というフォーマットも作成されました。 「JPEG 2000」は技術的には従来のJPEGを大幅に上回る優秀なフォーマットにもかかわらず、処理負荷の高さや互換性の問題から一般消費者向けには普及しませんでした。 今となっては、それ程負荷は高くないのですが、開発された当時(2000年代前半)のPCのスペックを考えると厳しかったと思われます。 2001年のPCスペックを調べてみました。 Intel Pentium III 256MBから512MBのRAM 20GBから80GB Windows 98やWindows 2000が主流 この

suno5.5の実力を過去バージョンと比較(比較曲多めでお送りします)

suno5.5の実力を過去バージョンと比較(比較曲多めでお送りします)

suno5.5を使ってみましたが、なんか音の厚みが増して日本語の再現度も上がって、歌唱クオリティが一ランク上がったように感じるほどです。 とりあえずバージョンの歴史から V2 (2023年秋):  最大生成時間は1分20秒でした V3 (2024年春):  生成時間が2分に更新されました V3.5 (2024年夏): 曲の構造が改善され、初回生成の最大時間が4分に、延長                       (Extend)は1回につき最大2分まで可能になりました V4 (2024年11月): ボーカル品質が向上し、初回生成の最大時間は4分です。また、「Extend(延長)」「Cover(カバー)」「Persona(ペルソナ)」機能が追加されました V4.5 (2025年5月): 初回生成の最大時間が8分に延長され、プロンプトへの忠実度やスタイルのマッシュアップ機能が向上しました V4.5+ (2025年7月): 「Add Vocals(ボーカル追加)」や「Add Instrumental(インスト追加)」などの制作ツールが更新されました V5 (2025年9月):  オーディ