AI関連

ローカルで効果音が作成できるAI「MMAudio」を使ってみた（「Waves Place」と同じ効果音も作ってみました）

MMAudio は、ビデオやテキストや画像の入力が与えられると、動画は同期されたオーディオ、画像はそれに合った音を生成します。

使用方法は

Pinokio
https://pinokio.co/

こちらのアプリからインストールして、「MMAudio」を使います。
インストール方法などは別記事を書きたいと思います。

比較対象として
時計のG-shockでおなじみのCASIO（カシオ）の新サービス！AIで効果音が生成できる「Waves Place」を試してみた
の記事と比較しやすいように、同じようなプロンプトで作成します。

MMAudio は、ビデオやテキストや画像の入力が与えられると、動画は同期されたオーディオ、画像はそれに合った音を生成します。
使い方が非常に簡単な上に、動画に合わせて生成できるのも使い勝手がいいですね。カシオの「Waves Place」はテキストからだけだったので、こちらの方が少し上な感じがします。

実際にできるのは、
・テキストから効果音生成
・画像から効果の音生成
・動画に合わせて効果音生成

前に「Waves Place」用に作成した動画が、丁度あるので、これに音を付け直してもらいます。
既にある動画に音を入れる事ができるのは面白いですね。

最初は鯨の動画の音を変えてみます。

0:00

/0:04

動画は「Waves Place」と同じで、効果音だけ付け直しました。
「MMAudio」は動画を指定するだけで、音を付け替えてくれるので、結構簡単に作成できます。
今回は４秒でしたが、もっと長い音でも大丈夫です。

次は花火大会です

0:00

/0:04

結構リアルでいい感じになってますね。
特に花火を遠くから見ている時の独特な反響とか、送れてから音が届く感じなどが良く表現されているように思います。

次はダイナマイトの爆発です。

0:00

/0:04

爆発音としての強さがあって、「Waves Place」よりも「MMAudio」の方がいい感じですね。
好みもあるとは思いますが、概ね「MMAudio」の方がリアリティーがある音になっているかと思います。

最後に自販機いってみます

0:00

/0:04

動画には合っていますが、動画がおかしいのでなんとも言えませんｗ
なので、今度はテキストから効果音を作成してみたいと思います。

最初は鯨

0:00

/0:04

歯がちょっと怖い感じになっていますがいい感じです。
次は、花火です。

0:00

/0:04

花火も、ちょっと距離を感じる音がしますが、いい感じです。
次はダイナマイトです。

0:00

/0:03

これも、ダイナマイト本体が結構長く残っていますが、効果音がちゃんと爆発音な感じなので、悪くないです。

次は、自動販売機ですが、これがなかなか前回もうまく行きませんでしたが、今回もうまく行きません。
爆発とか水しぶきなど、分かりやすい音は再現性高いですが、それ以外となると、色々と難しいですね。
自動販売機も動作音と、缶が落ちてくる音など、別々に生成して組み合わせる方が精度高そうです。

本末転倒ですが、家の近くにある自動販売機で購入音を録音した方が早そうですよねｗ
と言う訳で、数々の失敗自販機の動画をお送りしますｗ

0:00

/0:04

自販機が稼働している音はしますが、何も動かないｗ
自販機を撮影しただけになっています。
次は、新型自販機ですｗ

0:00

/0:04

なんと中身が動いているんですが、意味があるのでしょうか？ｗ
次は、ただいま印刷中！

0:00

/0:04

３Dプリンタでジュースを印刷しているような演出ｗ
そんな自販機なら、凄いですけどねｗ
次は、ジュースを充填しながら売っています。
後ろの方を注目して見てください。

0:00

/0:04

蕎麦やうどんの自販機みたいに、自販機で調理しているみたいな感じですかね。
謎の飲み物を、充填してますｗ
次は踊る自販機です

0:00

/0:04

これは、今でも実現できそう！既にあってもおかしくないですね
次は、縮尺・・・？？？

0:00

/0:04

一見普通の自販機ですが・・・・
人が出てくるとおかしな感じになりますｗ

と言うわでどうだったでしょうか？
AIで効果音を作って動画を作る所までやってみましたが、AIに得意な物と不得意な物がよく分かりますね
結構簡単だったので、近日中に効果音を作るAIのインストールから使い方の記事も書きたいと思います。

最後おまけで、プロンプト間違えて、鯨の動画作る時に、ダイナマイトのプロンプトを入れて作った結果です・・・

0:00

/0:03

オープンソースの２画面ファイラーで、欲しい機能をAIで追加してみた

「shellfiler」というオープンソースの２画面ファイラーを愛用していました。シェアウェアの頃から、お金を払わせてもらって使わせてもらっていたのですが、ある時からオープンソースになりました。個人的に欲しい機能で、ネットワーク上のNASや他のPCの共有フォルダに手軽にアクセスする機能です。具体的には「\PC名\共有フォルダ名」みたいなアクセスなんですが、これに対応していません。ネットワークドライブ（ネットワーク上のアクセス先をドライブとしてWindowsに）を使えばアクセスは出来るので、全く使えない訳ではないのですが、共有フォイルだが多いとそれ全部にネットワークドライブを割り当てる訳にもいかず、最近は使わなくなっていました。他のツールも試しましたが、「shellfiler」の使い勝手が結構良くて、個人的には変えたくいない！そこで、せっかくオープンソースなんだから、AIで必要な部分を修正できれば、良さそう！「shellfiler」のGITのURLです。使用するAIは今回Geminiさんで、新しくなった「AntiGravity」でやってみます。作業ファルダを指

自動的にカラオケっぽい歌詞を付けるアプリを作ってみた結果

sunoで作成した曲に歌詞を付けるのが手間だなぁ～と常々思っていたのですが、これを効率化したいと言う事で、今回は歌を解析して歌詞を指定すればタイミングを合わせて配置してくれるアプリを作ってみました。せっかく作ったので少し解説と、どんな物が作れるのか、デモの動画と少し解説をしますが、アプリそのものはライセンスの問題で非公開です。実際にこのツールで作成した動画を３本ほど紹介スペルトナエルサイコロ勇者と魔王の城アトミックピクニック見てもらうと分かりますが、これが思ったより簡単に作れるようになったので、現在のように短期間で作れるようになりました。歌詞入りで曲を公開する場合に、歌詞を入れる作業に時間がかかる割に、イマイチなできになる事も多いので、クオリティーが安定したのも良かったです。では、次の動画で実際にツールを使って曲に歌詞を入れていきます。使用しているＡＩのライセンス問題で、手軽に公開できないのと、需要がそれ程無さそうなので、こんなアプリで動画作成してますよって紹介になります。音源さえ用意すれば、カラオケも作れちゃいます。カラオケの例です。

ある人から、MarkdownのテキストをPDFにしてくれる何かが欲しいと言われたので、Claude Codeで作る事にした

実際、AIはMarkdownで解答を返してくる事が多く、普通に使っているだけでも、Markdown形式のテキストが手軽に表示したり、PDFに変換できると便利だと思うので、ブラウザで手軽に使える物を作りました。作成後WEB上にアップしたのが以下のURLになります。 https://test.aisgm.me/test_prog/app/md2pdf/ VS Codeのプラグイン入れれば、同じ事は出来ますし、他にも同じようなアプリを作っている人がいるので、それを使うのも手なんですが、最近は怪しいサイトも多いですし、広告が大量に出るものも多いです。更に、プラグインがウィルスに汚染されているケースなんかもニュースになっているので、セキュリティー的に使った事が無いものを人に勧めるのも怖いです。そんな訳で、手軽に使えてインストール等の面倒な準備が必要無いってなると、WEBアプリでアクセスすれば使えて、ローカルで処理させるのが良さそうです。配布やインストールの手間も必要無く、使いたい時にネットに繋がって、ブラウザさえあれば動くので一番使い勝手がいいですよね。ってな訳で、Claude

画像フォーマットに関する記事を見て色々と深掘りしてみた

画像フォーマットの正体とWebPの「予測マジック」を理解する次世代画像フォーマットAVIFを触ってみた割と最近の画像圧縮フォーマットについてです。「webp」は比較的見るようになったフォーマットですが、従来は画像のサイズが小さいのはJPGで、透明色が使えて画質を維持するのがPNGって感じで、使い分けられていると思います。しかし、JPGは古いフォーマットで圧縮アルゴリズムも古い上に、透明色が使えないなど改良の余地が多々あるので、「JPEG 2000」というフォーマットも作成されました。「JPEG 2000」は技術的には従来のJPEGを大幅に上回る優秀なフォーマットにもかかわらず、処理負荷の高さや互換性の問題から一般消費者向けには普及しませんでした。今となっては、それ程負荷は高くないのですが、開発された当時（2000年代前半）のPCのスペックを考えると厳しかったと思われます。 2001年のPCスペックを調べてみました。 Intel Pentium III 256MBから512MBのRAM 20GBから80GB Windows 98やWindows 2000が主流この

Pinokiohttps://pinokio.co/

Read more

オープンソースの２画面ファイラーで、欲しい機能をAIで追加してみた

自動的にカラオケっぽい歌詞を付けるアプリを作ってみた結果

ある人から、MarkdownのテキストをPDFにしてくれる何かが欲しいと言われたので、Claude Codeで作る事にした

画像フォーマットに関する記事を見て色々と深掘りしてみた

Pinokio
https://pinokio.co/