ローカルで効果音が作成できるAI「MMAudio」を使ってみた(「Waves Place」と同じ効果音も作ってみました)

ローカルで効果音が作成できるAI「MMAudio」を使ってみた(「Waves Place」と同じ効果音も作ってみました)

MMAudio は、ビデオやテキストや画像の入力が与えられると、動画は同期されたオーディオ、画像はそれに合った音を生成します。

使用方法は

Pinokio
https://pinokio.co/

こちらのアプリからインストールして、「MMAudio」を使います。
インストール方法などは別記事を書きたいと思います。

比較対象として
時計のG-shockでおなじみのCASIO(カシオ)の新サービス!AIで効果音が生成できる「Waves Place」を試してみた

の記事と比較しやすいように、同じようなプロンプトで作成します。

MMAudio は、ビデオやテキストや画像の入力が与えられると、動画は同期されたオーディオ、画像はそれに合った音を生成します。
使い方が非常に簡単な上に、動画に合わせて生成できるのも使い勝手がいいですね。カシオの「Waves Place」はテキストからだけだったので、こちらの方が少し上な感じがします。

実際にできるのは、
・テキストから効果音生成
・画像から効果の音生成
・動画に合わせて効果音生成

前に「Waves Place」用に作成した動画が、丁度あるので、これに音を付け直してもらいます。
既にある動画に音を入れる事ができるのは面白いですね。

最初は鯨の動画の音を変えてみます。

0:00
/0:04

動画は「Waves Place」と同じで、効果音だけ付け直しました。
「MMAudio」は動画を指定するだけで、音を付け替えてくれるので、結構簡単に作成できます。
今回は4秒でしたが、もっと長い音でも大丈夫です。

次は花火大会です

0:00
/0:04

結構リアルでいい感じになってますね。
特に花火を遠くから見ている時の独特な反響とか、送れてから音が届く感じなどが良く表現されているように思います。

次はダイナマイトの爆発です。

0:00
/0:04

爆発音としての強さがあって、「Waves Place」よりも「MMAudio」の方がいい感じですね。
好みもあるとは思いますが、概ね「MMAudio」の方がリアリティーがある音になっているかと思います。

最後に自販機いってみます

0:00
/0:04

動画には合っていますが、動画がおかしいのでなんとも言えませんw
なので、今度はテキストから効果音を作成してみたいと思います。

最初は鯨

0:00
/0:04

歯がちょっと怖い感じになっていますがいい感じです。
次は、花火です。

0:00
/0:04

花火も、ちょっと距離を感じる音がしますが、いい感じです。
次はダイナマイトです。

0:00
/0:03

これも、ダイナマイト本体が結構長く残っていますが、効果音がちゃんと爆発音な感じなので、悪くないです。

次は、自動販売機ですが、これがなかなか前回もうまく行きませんでしたが、今回もうまく行きません。
爆発とか水しぶきなど、分かりやすい音は再現性高いですが、それ以外となると、色々と難しいですね。
自動販売機も動作音と、缶が落ちてくる音など、別々に生成して組み合わせる方が精度高そうです。

本末転倒ですが、家の近くにある自動販売機で購入音を録音した方が早そうですよねw
と言う訳で、数々の失敗自販機の動画をお送りしますw

0:00
/0:04

自販機が稼働している音はしますが、何も動かないw
自販機を撮影しただけになっています。
次は、新型自販機ですw

0:00
/0:04

なんと中身が動いているんですが、意味があるのでしょうか?w
次は、ただいま印刷中!

0:00
/0:04

3Dプリンタでジュースを印刷しているような演出w
そんな自販機なら、凄いですけどねw
次は、ジュースを充填しながら売っています。
後ろの方を注目して見てください。

0:00
/0:04

蕎麦やうどんの自販機みたいに、自販機で調理しているみたいな感じですかね。
謎の飲み物を、充填してますw
次は踊る自販機です

0:00
/0:04

これは、今でも実現できそう!既にあってもおかしくないですね
次は、縮尺・・・???

0:00
/0:04

一見普通の自販機ですが・・・・
人が出てくるとおかしな感じになりますw

と言うわでどうだったでしょうか?
AIで効果音を作って動画を作る所までやってみましたが、AIに得意な物と不得意な物がよく分かりますね
結構簡単だったので、近日中に効果音を作るAIのインストールから使い方の記事も書きたいと思います。

最後おまけで、プロンプト間違えて、鯨の動画作る時に、ダイナマイトのプロンプトを入れて作った結果です・・・

0:00
/0:03

Read more

比較的最近の気になったニュース11月26日

比較的最近の気になったニュース11月26日

ここ最近色々追いつかなくて、更新が滞っております・・・・ 書きかけの記事も何個かあって・・・ぐぬぬ そんな訳で、最近気になったニュースです。 エレコム、よくやった! ひと目で「仕様」がわかるUSB-Cケーブル登場 USBケーブルって凄く種類が多くて、規格を考えた奴土下座しろって言いたくなりますw データーの転送速度と、電気の流量の組み合わせで性能に差があり、100Wの電気が流せるのに、データの転送速度が「USB2.0」相当とか・・・ 「USB3.1 Gen1」は「USB2.0」の約10倍ぐらいの速度なので、差が激しいですよね。それが全く書かれていないし、分からないケーブルも沢山あるので書いてくれるとありがたいですね。 USB Cable Checker3 ちなみにこんな製品も出ていて、USBケーブルの性能をテストできます。 実は持っている上に、クラファンで購入したので、ブログに書こうと思っているので、その内書きます。 AIは著者が中国人であることが明らかになると途端に「反中」モードになることが判明:特にDeepSeekが顕著な傾向 面白い記事ですね。学習元の影響が大きい

久々にオールインワンのコード生成「DeepSite」を使ってみた

久々にオールインワンのコード生成「DeepSite」を使ってみた

AIがWEBサイトをコーディングしてくれるサービスです。 DeepSite https://huggingface.co/spaces/enzostvs/deepsite 今回はテトリスっぽいゲームを作ってもらいました 今回の完成品 https://iaisd9-blocky-blitz-bonanza.static.hf.space/index.html では本題です。 アカウント(無料)を作ると、完成品をこのように公開できます。 ちなみに無料のユーザー登録すると、制作物を「DeepSite」で公開できる機能もあるので便利です(今回はその機能を使っています)。 複数のページが相互接続された複雑なウェブサイトを構築できます。 シンプルなランディングページから、動的なルーティングとナビゲーションを備えたフル機能のウェブアプリケーションまで、あらゆるものを構築できます。 と言う事で、WEBページであれば、かなりの物を作成できるサービスなので、当然ブラウザで遊べるゲームも作る事ができるので、テトリス的なゲームを作ってもらいました。 このサービスに限らず、既にWEB

時計のG-shockでおなじみのCASIO(カシオ)の新サービス!AIで効果音が生成できる「Waves Place」を試してみた

時計のG-shockでおなじみのCASIO(カシオ)の新サービス!AIで効果音が生成できる「Waves Place」を試してみた

前に気になっていたけど、試していなかったので、今回試してみました。 CASIOのアカウントを作成する必要があります。 ちょっとめんどいですが、無料で試せるのでとりあえず作成して試してみました。 一応プレスリリースです。 AIで効果音が生成できる「Waves Place」とライブ配信専用スケジューラー「Streamer Times」を正式リリース 実際どんな交換が生成できるのか、結構気にはなってます。 効果音系のアプリも実は持っているので、そんなのと比較もしてみたいですが、今回はこのサービスがどんな感じかを試します。 まず、料金プランのリンクです。最新情報はこちらを参照してください。 一応現在時点のプランです。 フリープランでは商用は不可ですね。 「starter」プラン以降で商用利用可能です。 フリーだと月20回までお試しできる感じです。 月千円(「starter」プラン)で800回って事なので、普通は「starter」プランで使い切れない気がします。 使うとすると、基本的に必要な時に有料プランして、終わったらフリーに戻すみたいな使い方になりそうなサービスです。 実際

比較的最近の気になったニュース11月03日

比較的最近の気になったニュース11月03日

『とんでもスキルで異世界放浪メシ2』シーズン2登場の企業20社が明らかに エバラや不二家など20社が協力 原作だとぼかされていたメーカー製品が、アニメで実際のメーカー名を出して表記しているので、原作ではやりたかったけどできなかったかもしれない事をアニメでできているのはいいですね。 メーカーもいい宣伝になるって判断でしょうかね 特に、海外へアニメは輸出されるので、知名度アップには貢献しそうです。 「DeepSeek-OCR」を試す 画像でテキストをトークン圧縮するDeepSeek-OCRがいろいろすごい AIネタです。 画像でテキストをトークン圧縮する研究をしていたら、OCR(Optical Character Recog nition(光学文字認識))の技術が凄い良くなったって事みたいです。 面白い上に有益ですね。 Web版 Claude Code の概要 Claude Codeは今までのAI支援開発ツールとは何が違うのか Claude Skillsを使ってみた - システムプロンプト的なカスタマイズが面白い Claude Codeのカスタムスラッシュコマンドをマスター