素人が作る実写っぽいミュージックビデオの作り方　その１

結構長くなりそうなので、何回かに分けて書きます。
続きは以下からどうぞ

今回作成したミュージックビデオです。

音楽以外はローカルで作成しました。
クラウドサービスは、結構サービス料金がかかりますが、GPUの購入価格と比較すると、どちらが高くなるかは、使用頻度なんかで変わるかと思います。
一点、ローカルで有利なので、試行錯誤を行いやすい事でしょうか？

ローカル環境の紹介と大雑把な制作の流れ、クラウドとの比較なんかをしていきたいと思います。
今回の実際に作成した過程や、ローカル環境での細かい作り方等は次回行いたいと思います。

まず作成環境

動画生成
AMD Ryzen AI 9 HX 370 / Radeon 890M
RTX5070TI

動画生成ツールは「ComfyUI」を使用
AIは「WAN2.2」と「humo」を使用しました。

音楽はSUNOを使用しました。
音楽作成はSUNO Ver4.5+が最新だったので、Ver4.5+です。
元々の女性はQwenImageを使用しました。

動画は比較的生成に時間のかからない「720*480」の解像度で作成して、後に動画編集してからアップスケールする感じです。

「WAN2.2」も「humo」もちゃんと音を指定すれば、日本語の歌詞でもリップシンクしてくれるので、歌うシーンそのものは作りやすいです。
問題は、同時に出せる時間が短いので、それを切り貼りして１曲分に仕上げています。

まず前提条件として、最初から用意されているテンプレートを使用しています。
高速化とか色々複雑なワークフローを使っている人もいますが、テンプレートも高速化等のアップデートが行われているので、それだけでもある程度の物は作成できると思います。
「WAN2.2」は、１４秒まで作成可能
「humo」はベースは３秒で５秒までは作成可能

この短い時間しか作成できないので、これをうまく組み合わせるしか無い事になります。
「WAN2.2」で１４秒毎のリップシンク動画を作成します。

今回の音楽は３分１８秒　＝　１９８秒となります。
動画作成時音楽ファイルを指定すると、その先頭から１４秒作ってくれるので、音楽ファイルを１５分割して、作成する必要があります。
なので、歌のWAVファイルを１５分割して、１５回生成すると最後までの映像が完成します。

ここから実際の作成例です

まず、没映像ですが、３秒で作成するとワンフレーズ入らないので難しいです。
カメラワークもリップシンクもいい感じなんですが、突然切れてしまうので使いにくい映像になっています。

0:00

/0:03

次に１４秒生成できる「WAN2.2」を使ってベースとなる動画の作成例です。
１４秒毎に区切ったWAVファイルが１５個できるので、これを一旦全部作成して、これをベースの映像にしようと考えました。
ベースなので、オーソドックスな物にしました。

作成した最初の１４秒が以下になります。

0:00

/0:14

実際の動画では最初の７秒ぐらいまで別の映像を使用してから、この映像に切り替えています。
結局AIで生成する場合、何度も生成して、できがいい物を使う事になるので、ベースを作っておいて、そこにできが良い映像を重ねていくといった手法で作成しています。

また、間奏の時に色々な映像を入れたいと思ったので、いくつかの生成AIを試してみました。
その時に、かなり珍映像が作成されので、紹介したいと思います。

プロンプトは同じで、４種類のAI生成サービスをテストしました

以下がプロンプトです

女性がフリスビーを投げて、フリスビーが画面外へ飛んで行き、戻ってくるフリスビーを女性が一回転してかっこよくフリスビーをキャッチする

テストした生成AIのサービスは以下になります。

Runway Gen-3

Runway Gen-3は、特にAIを活用した動画生成と編集に強みを持つツールです。Gen-3 Alpha Turboモデルでは、5〜10秒のクリップを1分以内に生成可能で、高速な処理が特徴です。

Kling 1.6

リアルな映像やクリエイティブな動画を生成することが可能です。
自然な動きや細かいディテールの再現に優れ、商用利用にも適しています。

Veo3

非常に高性能なモデルとして知られています。リアルな映像生成や複雑なシーン描写が可能です。
オブジェクト除去、カメラやモーション制御、効果音や環境音の追加などが可能です。

それでは、それぞれのモデルの実行結果です。

Runway Gen-3

0:00

/0:10

残念感半端ないです。人種も変わった感じになっていますし、手に変な物を持っています。
謎な補完が多いですね。

Kling 1.6

0:00

/0:10

一番それっぽくなった例です。
フリスビーがよく分からない事になっていますが、一回転しているし、何かを投げているので、できるだけ再現しようとしているのが分かります。

Veo3

0:00

/0:08

オプション盛々で音も付けました。
動きは悪くないし、映像も綺麗なんですが、人物が変わっちゃってますし、投げたフリスビーのへなちょこぶりもなんとも・・・・
この辺は、人種指定とかをしないとダメなのかもしれません。

まとめ

それぞれの、AIで同じプロンプトで作成してみましたが、全体的に酷い事になっていると思います。
どうしたら良くなるのかや、プロンプトのテクニックは、やはりAIに聞くのが一番なんですが、そうは言っても試行錯誤が必要で、何度も生成できる方が有利なので、長尺の動画生成を行うにはローカルで試行錯誤しながら生成するのが良いかなと思ったりします。
もちろんお金が潤沢なら、クラウドサービスを使いまくって生成する方が、面倒くさいセッティングやPCを置く場所とか気にしなくても良いので、メリットはあります。

今回は動画生成の入り口的な話でしたが、次は実際に作成した時の過程を紹介したいと思います。

おまけ

今回MVで使用したローカル生成AIでも同じプロンプトで作成したので最後に紹介です

Wan2.2

0:00

/0:05

いつもより余計に回っておりますｗ

humo

今度は「humo」で何度か作成した結果、一番できがいいのと残念なの２種類です。

できがいい奴

0:00

/0:05

人物はほぼ維持されていて、フリスビーは疑惑はありますが投げています

今度はできの悪い奴

0:00

/0:03

ダイナミックでいい映像になっているのですが、人物が全然違う人になっていたり、髪型も違うので、思うようにいきませんでした。

という訳で、次回、大雑把に制作過程を説明していきたいと思います。

第２回へ続く
素人が作る実写っぽいミュージックビデオの作り方　その２

「ガチョウ（goose）」や「アヒル（duck）」の名前が付いているサービス名を見かけるのでAIに聞いてみた

「ガチョウ（goose）」や「アヒル（duck）」の名前を使ったサービスやアプリをちょいちょい見かけるので、なんでかなと思ってAIに聞いてみました。「GPT-5.2」を使用してます。事の発端ですが、ガチョウとかアヒルって外人好きだよなって思う事があって、プライバーシー重視の検索サービス「DuckDuckGo」とか、AIエージェントの「goose」とか、VPNサービス「GOOSE VPN」など他にもありそうなので、軽く検索して、探してみました。軽く検索した結果（探せばもっとあるはず）サービス概要名前検索サービス DuckDuckGo ゲームエスケープフロムダッコフ AIエージェント goose 見守りサービス GOOSE ダウンジャケット CANADA GOOSE 水鳥を自動カウントするサービス Goose 1・2・3 VPNサービス GOOSE VPN

比較的最近の気になったAI関連ニュース２０２６年０２月２３日

なぜAIは学習していない画像を生成できるのか？──創造性をめぐる最新研究 AIの画像生成は、単なるコピペとかのレベルを遙かに超えていますが、AIがどう動いているのかは、まだ完全には解明されていません。 AIの動作を現在分かっている事や、説なんかを解説している記事です。気になる方は読んでみてください。 AIの内部に脳の「報酬系」に酷似したシステムを発見：大規模言語モデルの知能を支える1%のドーパミンニューロンと価値回路の正体 AIの仕組みに関しての研究です。人間の脳と同じような動きをAIもしている話なので、色々考えさせられます。結構面白いです。サーバーワークス、Anthropicの生成AIモデル「Claude」をAWS上で正規ライセンス販売コード生成AIは、コードを一度サーバーに送るので、漏洩などの心配から利用できない企業も多かったですが、この仕組みを使うとAWSで自社専用に借りたサーバーで「Claude」を動かす事が出来るので、使いやすい会社も多くなりそうな仕組みです。他に比べて使い勝手が良くるので、「Claude」が更に強くなりそうです。 AMDがグリグリ

音楽生成AI「ACE-Step v1.5」が本当に「Suno v4.5」を越えるのか聞き比べできるようにしてみた

こんな記事があったので、実際にsunoでも同じ歌詞の曲を作って比較してみます。無料で「Suno v4.5」超え？　音楽生成AI「ACE-Step v1.5」公開　個人向けGPUでも動作「ACE-Step v1.5」は、ComfyUIにテンプレートがあるので、簡単に利用できまます。軽く曲を作って、「suno v4.5」でも作成してみます。ついでに「suno v5.0」でも作成して、比較してみたいと思います。まずは、作成する曲についてです。曲調などのスタイルは Style Prompt: Acoustic Guitar, Folk, Country, Warm, Upbeat, Female vocal このような指定で、ギター中心のカントリーで、ボーカルは女性を指定しました。続いて歌詞ですが、以下のような歌詞です。ちなみに「Cast

キシリトールって歯に本当にいいの？エリスリトールとアルロースって何？AIに聞いて調べてみた！

キシリトールガムなどが出てから、キシリトールは歯に良いって話があるのですが、科学的にどうなのか？調べると近しい甘味料としてエリスリトールとアルロースが出てきましたが、これってって何？その辺をAIに聞いて調べました。今回使用したAIです。 Gemini3 PRO gpt-oss:120b(ローカル) GPT5.2 など高性能なAIを取りそろえて、色々聞いた結果をまとめています。とは言え、結論が欲しい方のために最初に結論を比較できるようにまとめました。内容をもう少し掘り下げたい人は、その先を読んでもらえればと思います。しかもNANObananaにわかりやすい画像にまとめてもらったので、こちらを見れば一目瞭然です。まずは、歯への影響です。キシリトールなんかは分かっていましたが、エリスリトールがかなり優秀です。次は、人体への影響です。歯に良くても体に負担がかかると良くありません。キシリトールはお腹がゆるくなる問題がありますし。こうして見てみると、歯にとってはエリスリトールが優秀ですね。そして、ダイエットならアルロースって感じでしょうか。

素人が作る実写っぽいミュージックビデオの作り方　その１

ais

結構長くなりそうなので、何回かに分けて書きます。
続きは以下からどうぞ

素人が作る実写っぽいミュージックビデオの作り方　その２

今回作成したミュージックビデオです。

まず作成環境

動画生成
AMD Ryzen AI 9 HX 370 / Radeon 890M
RTX5070TI

動画生成ツールは「ComfyUI」を使用
AIは「WAN2.2」と「humo」を使用しました。

音楽はSUNOを使用しました。
音楽作成はSUNO Ver4.5+が最新だったので、Ver4.5+です。
元々の女性はQwenImageを使用しました。

ここから実際の作成例です

作成した最初の１４秒が以下になります。

プロンプトは同じで、４種類のAI生成サービスをテストしました

以下がプロンプトです

Runway Gen-3

Kling 1.6

Veo3

それでは、それぞれのモデルの実行結果です。

Runway Gen-3

Kling 1.6

Veo3

まとめ

今回は動画生成の入り口的な話でしたが、次は実際に作成した時の過程を紹介したいと思います。

おまけ

Wan2.2

humo

今度は「humo」で何度か作成した結果、一番できがいいのと残念なの２種類です。

できがいい奴

今度はできの悪い奴

第２回へ続く
素人が作る実写っぽいミュージックビデオの作り方　その２

Read more

「ガチョウ（goose）」や「アヒル（duck）」の名前が付いているサービス名を見かけるのでAIに聞いてみた

比較的最近の気になったAI関連ニュース２０２６年０２月２３日

音楽生成AI「ACE-Step v1.5」が本当に「Suno v4.5」を越えるのか聞き比べできるようにしてみた

キシリトールって歯に本当にいいの？エリスリトールとアルロースって何？AIに聞いて調べてみた！

結構長くなりそうなので、何回かに分けて書きます。続きは以下からどうぞ

素人が作る実写っぽいミュージックビデオの作り方 その２

今回作成したミュージックビデオです。

まず作成環境

動画生成AMD Ryzen AI 9 HX 370 / Radeon 890MRTX5070TI

動画生成ツールは「ComfyUI」を使用AIは「WAN2.2」と「humo」を使用しました。

音楽はSUNOを使用しました。音楽作成はSUNO Ver4.5+が最新だったので、Ver4.5+です。元々の女性はQwenImageを使用しました。

ここから実際の作成例です

作成した最初の１４秒が以下になります。

プロンプトは同じで、４種類のAI生成サービスをテストしました

以下がプロンプトです

Runway Gen-3

Kling 1.6

Veo3

それでは、それぞれのモデルの実行結果です。

Runway Gen-3

Kling 1.6

Veo3

まとめ

今回は動画生成の入り口的な話でしたが、次は実際に作成した時の過程を紹介したいと思います。

おまけ

Wan2.2

humo

今度は「humo」で何度か作成した結果、一番できがいいのと残念なの２種類です。

できがいい奴

今度はできの悪い奴

第２回へ続く素人が作る実写っぽいミュージックビデオの作り方 その２

Read more

「ガチョウ（goose）」や「アヒル（duck）」の名前が付いているサービス名を見かけるのでAIに聞いてみた

比較的最近の気になったAI関連ニュース２０２６年０２月２３日

音楽生成AI「ACE-Step v1.5」が本当に「Suno v4.5」を越えるのか聞き比べできるようにしてみた

キシリトールって歯に本当にいいの？エリスリトールとアルロースって何？AIに聞いて調べてみた！

結構長くなりそうなので、何回かに分けて書きます。
続きは以下からどうぞ

素人が作る実写っぽいミュージックビデオの作り方　その２

動画生成
AMD Ryzen AI 9 HX 370 / Radeon 890M
RTX5070TI

動画生成ツールは「ComfyUI」を使用
AIは「WAN2.2」と「humo」を使用しました。

音楽はSUNOを使用しました。
音楽作成はSUNO Ver4.5+が最新だったので、Ver4.5+です。
元々の女性はQwenImageを使用しました。

第２回へ続く
素人が作る実写っぽいミュージックビデオの作り方　その２