素人が作る実写っぽいミュージックビデオの作り方　その２

ais

02 Oct 2025 — 4 min read

今回のポイント

・歌の音ファイルの作り方
・音ファイルを動画生成用に分割する
・リップシンクの動画ファイルの作り方
・動画編集

前段は前回の記事を参照してください

音楽ファイルの作成

SUNO AIを使用して作成しています。

ベースの歌詞をAIに作成してもらって、手直しします。
どんな歌詞を作るか、概要をまとめてAIに渡します。

具体的なプロンプト

作りたい歌詞の内容や使用したい単語、曲のイメージを説明します。
それに、以下の分をコピペしてくっつけてAIに投げます。

歌詞は以下のタグ中から使用してください
[Verse 1]
[Verse 2]
[Verse 3]
[Verse 4]
[Chorus]
[Powerful‐Chorus]
[Bridge]
[Outro]
[Lead-In]
[Pre-Chorus]
[Post-Chorus]
[Ending]
[rap]
[hook]
[drop]
[hook]

[Piano-solo]
[Violin‐solo]
[Drums‐solo]
[Bass Drum‐solo]
[Electric Guitar‐solo]
[Guitar‐solo]
[Shamisen‐solo]
[Shakuhachi‐solo]

と指示すると、いい感じに、SUNOに流し込むだけで利用できる歌詞を作成してくれます。

AIはクラウドのサービスであれば、ほぼ問題無く生成してくれます。
以下のサービスでは問題ありませんでした。

GPT-5
Grok4
Claude 4 Sonnet
Gemini 2.5 Pro

歌詞の手直し

SUNOが歌いにくい単語などがあるので、実際に１曲作成して、それを聞くと苦手な単語や、読み間違える漢字が分かるので、違う言葉に置き換えた漢字を平仮名に変えるなど、変更を加えます。
それから、実際に曲として聞いてみると、歌詞の意味や言葉のチョイスで気になる単語が出てくるので、あれば変更します。

曲調の指定

曲調ですが、いわゆるj-popとかrockとか、曲のスタイルを指定します。
これは作りたい曲調を指定するのが良いのですが、ドット絵のイメージ曲だったら、

chiptune, 8-bit

って感じで指定すると、ピコピコ音の楽曲が生成されます。

スタイルの数は多いので、解説している記事などを参考にするといいと思いますが、よく使うスタイルのプロンプトを管理するツールの、prompt builder を使用しています。
生成AIは、過去に使用したプロンプトを組み合わせて使用する事が多いので、結構便利です。

ある程度歌詞が固まったら、曲調を変更して何種類か曲を生成してもらいます。
１０曲とか作っても、最初の曲が一番いいなんて事もあったりしますが、沢山作ると全部聞いて判断するので結構時間かかります。
そして、いい曲ができたらダウンロードします。

次に、ダウンロードしたWAVファイルを分割して生成で利用しやすくします。

音ファイルの分割

その１でも軽く説明しましたが、ファイルを分割した方が生成の効率が良いので、分割するツールを利用します。
Audio Converter & Splitter
https://test.aisgm.me/test_prog/app/audio-converter/
これを利用します。

「Audio Converter & Splitter」の使い方

このツールはファイル分割とファイルのフォーマット変換を行う事ができるWEBツールで、処理はブラウザ上のローカルで行われるため、ファイルをサーバーにはアップロードしないので、セキュリティー的にも安心です。
その代わり、PCの性能が影響するので、遅いPCで使用すると、処理に時間がかかります。

分割は、分割数と秒数で分割する事ができます。
分割数指定は、指定した分割数で等分に分割します。
秒数指定分割は、して秒数毎に分割していき、最後のファイルは余った時間が入る感じになります。

その１でも書きましたが、今回の音楽は３分１８秒　＝　１９８秒となるので、１４秒で分割して１５ファイル作成します。

作成した１５ファイルを全部リップシンクの動画化していきます。
プロンプトもシンプルに、「女性はスタジオで歌を歌っている」で作成していきます。
元イメージは以下になります。

まず、このイメージを作成してから、このイメージを元に広げていきました。
QwenImageEditを使用して、服装や場所を変えていきます。
背景を海や砂漠にして、MVっぽい感じを出していきます。
実際に制作した画像が以下になります。

ここから、動画を作成します。
実際に作成した物はこちら（※注意　音が出ます）

0:00

/0:14

0:00

/0:14

0:00

/0:05

0:00

/0:05

プロンプトは「女性は歌いながらリズムに合わせてダンスをする」など、ここからカメラワークを足したり、歌わずにダンスだけさせるなど、バリエーションを作っていきます。
ここでは、４動画しか紹介していませんが、３００動画ほど作成して、そこから良い物を使うといった感じになります。
生成AIの種類やワークフロー（生成する時の設定的なやつ）次第で時間の長さや、生成にかかる時間も違うので、試しながら良い結果が得られる物を探していく感じになります。
特に、リップシンクがうまく行っていないケースや、伴奏に口の動きが持っていかれているケースなど、変な動画も大量にできるので、ガチャ感は強いかもですね。
ちなみに５秒の動画生成にかかる時間が１５分程度です。

最後にパーツの動画編集します

最後は、元の曲を動画編集ソフトのタイムラインに置いて、そこに音も入っている動画ファイルなので、音の位置を合わせれば動画データが沢山あっても簡単にきっちり合わせる事ができます。（一番下のラインが曲で、その上に動画をはめ込んでます）
音のない動画もあった思いますが、これは、間奏など歌っていない時に動きが欲しかったので、踊らせたりリズムを取らせる動画を作成して、それを良さそうな場所にはめ込んで全体を埋めていく感じです。

そんな感じで、今回の動画は完成しました。
まだ、未熟な点は多いですが、一旦こんな感じで、できあがったので公開しました。

「ガチョウ（goose）」や「アヒル（duck）」の名前が付いているサービス名を見かけるのでAIに聞いてみた

「ガチョウ（goose）」や「アヒル（duck）」の名前を使ったサービスやアプリをちょいちょい見かけるので、なんでかなと思ってAIに聞いてみました。「GPT-5.2」を使用してます。事の発端ですが、ガチョウとかアヒルって外人好きだよなって思う事があって、プライバーシー重視の検索サービス「DuckDuckGo」とか、AIエージェントの「goose」とか、VPNサービス「GOOSE VPN」など他にもありそうなので、軽く検索して、探してみました。軽く検索した結果（探せばもっとあるはず）サービス概要名前検索サービス DuckDuckGo ゲームエスケープフロムダッコフ AIエージェント goose 見守りサービス GOOSE ダウンジャケット CANADA GOOSE 水鳥を自動カウントするサービス Goose 1・2・3 VPNサービス GOOSE VPN

比較的最近の気になったAI関連ニュース２０２６年０２月２３日

なぜAIは学習していない画像を生成できるのか？──創造性をめぐる最新研究 AIの画像生成は、単なるコピペとかのレベルを遙かに超えていますが、AIがどう動いているのかは、まだ完全には解明されていません。 AIの動作を現在分かっている事や、説なんかを解説している記事です。気になる方は読んでみてください。 AIの内部に脳の「報酬系」に酷似したシステムを発見：大規模言語モデルの知能を支える1%のドーパミンニューロンと価値回路の正体 AIの仕組みに関しての研究です。人間の脳と同じような動きをAIもしている話なので、色々考えさせられます。結構面白いです。サーバーワークス、Anthropicの生成AIモデル「Claude」をAWS上で正規ライセンス販売コード生成AIは、コードを一度サーバーに送るので、漏洩などの心配から利用できない企業も多かったですが、この仕組みを使うとAWSで自社専用に借りたサーバーで「Claude」を動かす事が出来るので、使いやすい会社も多くなりそうな仕組みです。他に比べて使い勝手が良くるので、「Claude」が更に強くなりそうです。 AMDがグリグリ

音楽生成AI「ACE-Step v1.5」が本当に「Suno v4.5」を越えるのか聞き比べできるようにしてみた

こんな記事があったので、実際にsunoでも同じ歌詞の曲を作って比較してみます。無料で「Suno v4.5」超え？　音楽生成AI「ACE-Step v1.5」公開　個人向けGPUでも動作「ACE-Step v1.5」は、ComfyUIにテンプレートがあるので、簡単に利用できまます。軽く曲を作って、「suno v4.5」でも作成してみます。ついでに「suno v5.0」でも作成して、比較してみたいと思います。まずは、作成する曲についてです。曲調などのスタイルは Style Prompt: Acoustic Guitar, Folk, Country, Warm, Upbeat, Female vocal このような指定で、ギター中心のカントリーで、ボーカルは女性を指定しました。続いて歌詞ですが、以下のような歌詞です。ちなみに「Cast

キシリトールって歯に本当にいいの？エリスリトールとアルロースって何？AIに聞いて調べてみた！

キシリトールガムなどが出てから、キシリトールは歯に良いって話があるのですが、科学的にどうなのか？調べると近しい甘味料としてエリスリトールとアルロースが出てきましたが、これってって何？その辺をAIに聞いて調べました。今回使用したAIです。 Gemini3 PRO gpt-oss:120b(ローカル) GPT5.2 など高性能なAIを取りそろえて、色々聞いた結果をまとめています。とは言え、結論が欲しい方のために最初に結論を比較できるようにまとめました。内容をもう少し掘り下げたい人は、その先を読んでもらえればと思います。しかもNANObananaにわかりやすい画像にまとめてもらったので、こちらを見れば一目瞭然です。まずは、歯への影響です。キシリトールなんかは分かっていましたが、エリスリトールがかなり優秀です。次は、人体への影響です。歯に良くても体に負担がかかると良くありません。キシリトールはお腹がゆるくなる問題がありますし。こうして見てみると、歯にとってはエリスリトールが優秀ですね。そして、ダイエットならアルロースって感じでしょうか。

素人が作る実写っぽいミュージックビデオの作り方　その２

ais

前段は前回の記事を参照してください

音楽ファイルの作成

SUNO AIを使用して作成しています。

具体的なプロンプト

歌詞の手直し

曲調の指定

音ファイルの分割

使い方を近日中に別記事を書きます

「Audio Converter & Splitter」の使い方

その１でも書きましたが、今回の音楽は３分１８秒　＝　１９８秒となるので、１４秒で分割して１５ファイル作成します。

作成した１５ファイルを全部リップシンクの動画化していきます。
プロンプトもシンプルに、「女性はスタジオで歌を歌っている」で作成していきます。
元イメージは以下になります。

ここから、動画を作成します。
実際に作成した物はこちら（※注意　音が出ます）

最後にパーツの動画編集します

Read more

「ガチョウ（goose）」や「アヒル（duck）」の名前が付いているサービス名を見かけるのでAIに聞いてみた

比較的最近の気になったAI関連ニュース２０２６年０２月２３日

音楽生成AI「ACE-Step v1.5」が本当に「Suno v4.5」を越えるのか聞き比べできるようにしてみた

キシリトールって歯に本当にいいの？エリスリトールとアルロースって何？AIに聞いて調べてみた！

前段は前回の記事を参照してください

音楽ファイルの作成

SUNO AIを使用して作成しています。

具体的なプロンプト

歌詞の手直し

曲調の指定

音ファイルの分割

使い方を近日中に別記事を書きます

「Audio Converter & Splitter」の使い方

その１でも書きましたが、今回の音楽は３分１８秒 ＝ １９８秒となるので、１４秒で分割して１５ファイル作成します。

作成した１５ファイルを全部リップシンクの動画化していきます。プロンプトもシンプルに、「女性はスタジオで歌を歌っている」で作成していきます。元イメージは以下になります。

ここから、動画を作成します。実際に作成した物はこちら（※注意 音が出ます）

最後にパーツの動画編集します

Read more

「ガチョウ（goose）」や「アヒル（duck）」の名前が付いているサービス名を見かけるのでAIに聞いてみた

比較的最近の気になったAI関連ニュース２０２６年０２月２３日

音楽生成AI「ACE-Step v1.5」が本当に「Suno v4.5」を越えるのか聞き比べできるようにしてみた

キシリトールって歯に本当にいいの？エリスリトールとアルロースって何？AIに聞いて調べてみた！

その１でも書きましたが、今回の音楽は３分１８秒　＝　１９８秒となるので、１４秒で分割して１５ファイル作成します。

作成した１５ファイルを全部リップシンクの動画化していきます。
プロンプトもシンプルに、「女性はスタジオで歌を歌っている」で作成していきます。
元イメージは以下になります。

ここから、動画を作成します。
実際に作成した物はこちら（※注意　音が出ます）