素人が作る実写っぽいミュージックビデオの作り方 その1

素人が作る実写っぽいミュージックビデオの作り方 その1

結構長くなりそうなので、何回かに分けて書きます。
続きは以下からどうぞ

素人が作る実写っぽいミュージックビデオの作り方 その2

今回作成したミュージックビデオです。

音楽以外はローカルで作成しました。
クラウドサービスは、結構サービス料金がかかりますが、GPUの購入価格と比較すると、どちらが高くなるかは、使用頻度なんかで変わるかと思います。
一点、ローカルで有利なので、試行錯誤を行いやすい事でしょうか?

ローカル環境の紹介と大雑把な制作の流れ、クラウドとの比較なんかをしていきたいと思います。
今回の実際に作成した過程や、ローカル環境での細かい作り方等は次回行いたいと思います。

まず作成環境

動画生成
AMD Ryzen AI 9 HX 370 / Radeon 890M
RTX5070TI
動画生成ツールは「ComfyUI」を使用
AIは「WAN2.2」と「humo」を使用しました。
音楽はSUNOを使用しました。
音楽作成はSUNO Ver4.5+が最新だったので、Ver4.5+です。
元々の女性はQwenImageを使用しました。

動画は比較的生成に時間のかからない「720*480」の解像度で作成して、後に動画編集してからアップスケールする感じです。

「WAN2.2」も「humo」もちゃんと音を指定すれば、日本語の歌詞でもリップシンクしてくれるので、歌うシーンそのものは作りやすいです。
問題は、同時に出せる時間が短いので、それを切り貼りして1曲分に仕上げています。

まず前提条件として、最初から用意されているテンプレートを使用しています。
高速化とか色々複雑なワークフローを使っている人もいますが、テンプレートも高速化等のアップデートが行われているので、それだけでもある程度の物は作成できると思います。
「WAN2.2」は、14秒まで作成可能
「humo」はベースは3秒で5秒までは作成可能

この短い時間しか作成できないので、これをうまく組み合わせるしか無い事になります。
「WAN2.2」で14秒毎のリップシンク動画を作成します。

今回の音楽は3分18秒 = 198秒となります。
動画作成時音楽ファイルを指定すると、その先頭から14秒作ってくれるので、音楽ファイルを15分割して、作成する必要があります。
なので、歌のWAVファイルを15分割して、15回生成すると最後までの映像が完成します。

ここから実際の作成例です

まず、没映像ですが、3秒で作成するとワンフレーズ入らないので難しいです。
カメラワークもリップシンクもいい感じなんですが、突然切れてしまうので使いにくい映像になっています。

0:00
/0:03

次に14秒生成できる「WAN2.2」を使ってベースとなる動画の作成例です。
14秒毎に区切ったWAVファイルが15個できるので、これを一旦全部作成して、これをベースの映像にしようと考えました。
ベースなので、オーソドックスな物にしました。

作成した最初の14秒が以下になります。

0:00
/0:14

実際の動画では最初の7秒ぐらいまで別の映像を使用してから、この映像に切り替えています。
結局AIで生成する場合、何度も生成して、できがいい物を使う事になるので、ベースを作っておいて、そこにできが良い映像を重ねていくといった手法で作成しています。

また、間奏の時に色々な映像を入れたいと思ったので、いくつかの生成AIを試してみました。
その時に、かなり珍映像が作成されので、紹介したいと思います。

プロンプトは同じで、4種類のAI生成サービスをテストしました

以下がプロンプトです

女性がフリスビーを投げて、フリスビーが画面外へ飛んで行き、戻ってくるフリスビーを女性が一回転してかっこよくフリスビーをキャッチする

テストした生成AIのサービスは以下になります。

Runway Gen-3

Runway Gen-3は、特にAIを活用した動画生成と編集に強みを持つツールです。Gen-3 Alpha Turboモデルでは、5〜10秒のクリップを1分以内に生成可能で、高速な処理が特徴です。

Kling 1.6

リアルな映像やクリエイティブな動画を生成することが可能です。
自然な動きや細かいディテールの再現に優れ、商用利用にも適しています。

Veo3

非常に高性能なモデルとして知られています。リアルな映像生成や複雑なシーン描写が可能です。
オブジェクト除去、カメラやモーション制御、効果音や環境音の追加などが可能です。

それでは、それぞれのモデルの実行結果です。

Runway Gen-3

0:00
/0:10

残念感半端ないです。人種も変わった感じになっていますし、手に変な物を持っています。
謎な補完が多いですね。

Kling 1.6

0:00
/0:10

一番それっぽくなった例です。
フリスビーがよく分からない事になっていますが、一回転しているし、何かを投げているので、できるだけ再現しようとしているのが分かります。

Veo3

0:00
/0:08

オプション盛々で音も付けました。
動きは悪くないし、映像も綺麗なんですが、人物が変わっちゃってますし、投げたフリスビーのへなちょこぶりもなんとも・・・・
この辺は、人種指定とかをしないとダメなのかもしれません。

まとめ

それぞれの、AIで同じプロンプトで作成してみましたが、全体的に酷い事になっていると思います。
どうしたら良くなるのかや、プロンプトのテクニックは、やはりAIに聞くのが一番なんですが、そうは言っても試行錯誤が必要で、何度も生成できる方が有利なので、長尺の動画生成を行うにはローカルで試行錯誤しながら生成するのが良いかなと思ったりします。
もちろんお金が潤沢なら、クラウドサービスを使いまくって生成する方が、面倒くさいセッティングやPCを置く場所とか気にしなくても良いので、メリットはあります。

今回は動画生成の入り口的な話でしたが、次は実際に作成した時の過程を紹介したいと思います。

おまけ

今回MVで使用したローカル生成AIでも同じプロンプトで作成したので最後に紹介です

Wan2.2

0:00
/0:05

いつもより余計に回っておりますw

humo

今度は「humo」で何度か作成した結果、一番できがいいのと残念なの2種類です。

できがいい奴

0:00
/0:05

人物はほぼ維持されていて、フリスビーは疑惑はありますが投げています

今度はできの悪い奴

0:00
/0:03

ダイナミックでいい映像になっているのですが、人物が全然違う人になっていたり、髪型も違うので、思うようにいきませんでした。

という訳で、次回、大雑把に制作過程を説明していきたいと思います。

第2回へ続く
素人が作る実写っぽいミュージックビデオの作り方 その2

Read more

比較的最近の気になったニュース11月26日

比較的最近の気になったニュース11月26日

ここ最近色々追いつかなくて、更新が滞っております・・・・ 書きかけの記事も何個かあって・・・ぐぬぬ そんな訳で、最近気になったニュースです。 エレコム、よくやった! ひと目で「仕様」がわかるUSB-Cケーブル登場 USBケーブルって凄く種類が多くて、規格を考えた奴土下座しろって言いたくなりますw データーの転送速度と、電気の流量の組み合わせで性能に差があり、100Wの電気が流せるのに、データの転送速度が「USB2.0」相当とか・・・ 「USB3.1 Gen1」は「USB2.0」の約10倍ぐらいの速度なので、差が激しいですよね。それが全く書かれていないし、分からないケーブルも沢山あるので書いてくれるとありがたいですね。 USB Cable Checker3 ちなみにこんな製品も出ていて、USBケーブルの性能をテストできます。 実は持っている上に、クラファンで購入したので、ブログに書こうと思っているので、その内書きます。 AIは著者が中国人であることが明らかになると途端に「反中」モードになることが判明:特にDeepSeekが顕著な傾向 面白い記事ですね。学習元の影響が大きい

ローカルで効果音が作成できるAI「MMAudio」を使ってみた(「Waves Place」と同じ効果音も作ってみました)

ローカルで効果音が作成できるAI「MMAudio」を使ってみた(「Waves Place」と同じ効果音も作ってみました)

MMAudio は、ビデオやテキストや画像の入力が与えられると、動画は同期されたオーディオ、画像はそれに合った音を生成します。 使用方法は Pinokio https://pinokio.co/ こちらのアプリからインストールして、「MMAudio」を使います。 インストール方法などは別記事を書きたいと思います。 比較対象として 時計のG-shockでおなじみのCASIO(カシオ)の新サービス!AIで効果音が生成できる「Waves Place」を試してみた の記事と比較しやすいように、同じようなプロンプトで作成します。 MMAudio は、ビデオやテキストや画像の入力が与えられると、動画は同期されたオーディオ、画像はそれに合った音を生成します。 使い方が非常に簡単な上に、動画に合わせて生成できるのも使い勝手がいいですね。カシオの「Waves Place」はテキストからだけだったので、こちらの方が少し上な感じがします。 実際にできるのは、 ・テキストから効果音生成 ・画像から効果の音生成 ・動画に合わせて効果音生成 前に「Waves Place」用に作成した動画が、丁

久々にオールインワンのコード生成「DeepSite」を使ってみた

久々にオールインワンのコード生成「DeepSite」を使ってみた

AIがWEBサイトをコーディングしてくれるサービスです。 DeepSite https://huggingface.co/spaces/enzostvs/deepsite 今回はテトリスっぽいゲームを作ってもらいました 今回の完成品 https://iaisd9-blocky-blitz-bonanza.static.hf.space/index.html では本題です。 アカウント(無料)を作ると、完成品をこのように公開できます。 ちなみに無料のユーザー登録すると、制作物を「DeepSite」で公開できる機能もあるので便利です(今回はその機能を使っています)。 複数のページが相互接続された複雑なウェブサイトを構築できます。 シンプルなランディングページから、動的なルーティングとナビゲーションを備えたフル機能のウェブアプリケーションまで、あらゆるものを構築できます。 と言う事で、WEBページであれば、かなりの物を作成できるサービスなので、当然ブラウザで遊べるゲームも作る事ができるので、テトリス的なゲームを作ってもらいました。 このサービスに限らず、既にWEB

時計のG-shockでおなじみのCASIO(カシオ)の新サービス!AIで効果音が生成できる「Waves Place」を試してみた

時計のG-shockでおなじみのCASIO(カシオ)の新サービス!AIで効果音が生成できる「Waves Place」を試してみた

前に気になっていたけど、試していなかったので、今回試してみました。 CASIOのアカウントを作成する必要があります。 ちょっとめんどいですが、無料で試せるのでとりあえず作成して試してみました。 一応プレスリリースです。 AIで効果音が生成できる「Waves Place」とライブ配信専用スケジューラー「Streamer Times」を正式リリース 実際どんな交換が生成できるのか、結構気にはなってます。 効果音系のアプリも実は持っているので、そんなのと比較もしてみたいですが、今回はこのサービスがどんな感じかを試します。 まず、料金プランのリンクです。最新情報はこちらを参照してください。 一応現在時点のプランです。 フリープランでは商用は不可ですね。 「starter」プラン以降で商用利用可能です。 フリーだと月20回までお試しできる感じです。 月千円(「starter」プラン)で800回って事なので、普通は「starter」プランで使い切れない気がします。 使うとすると、基本的に必要な時に有料プランして、終わったらフリーに戻すみたいな使い方になりそうなサービスです。 実際