ローカルで効果音が作成できるAI「MMAudio」を使ってみた(「Waves Place」と同じ効果音も作ってみました)

ローカルで効果音が作成できるAI「MMAudio」を使ってみた(「Waves Place」と同じ効果音も作ってみました)

MMAudio は、ビデオやテキストや画像の入力が与えられると、動画は同期されたオーディオ、画像はそれに合った音を生成します。 使用方法は Pinokio https://pinokio.co/ こちらのアプリからインストールして、「MMAudio」を使います。 インストール方法などは別記事を書きたいと思います。 比較対象として 時計のG-shockでおなじみのCASIO(カシオ)の新サービス!AIで効果音が生成できる「Waves Place」を試してみた の記事と比較しやすいように、同じようなプロンプトで作成します。 MMAudio は、ビデオやテキストや画像の入力が与えられると、動画は同期されたオーディオ、画像はそれに合った音を生成します。 使い方が非常に簡単な上に、動画に合わせて生成できるのも使い勝手がいいですね。カシオの「Waves Place」はテキストからだけだったので、こちらの方が少し上な感じがします。 実際にできるのは、 ・テキストから効果音生成 ・画像から効果の音生成 ・動画に合わせて効果音生成 前に「Waves Place」用に作成した動画が、丁

久々にオールインワンのコード生成「DeepSite」を使ってみた

久々にオールインワンのコード生成「DeepSite」を使ってみた

AIがWEBサイトをコーディングしてくれるサービスです。 DeepSite https://huggingface.co/spaces/enzostvs/deepsite 今回はテトリスっぽいゲームを作ってもらいました 今回の完成品 https://iaisd9-blocky-blitz-bonanza.static.hf.space/index.html では本題です。 アカウント(無料)を作ると、完成品をこのように公開できます。 ちなみに無料のユーザー登録すると、制作物を「DeepSite」で公開できる機能もあるので便利です(今回はその機能を使っています)。 複数のページが相互接続された複雑なウェブサイトを構築できます。 シンプルなランディングページから、動的なルーティングとナビゲーションを備えたフル機能のウェブアプリケーションまで、あらゆるものを構築できます。 と言う事で、WEBページであれば、かなりの物を作成できるサービスなので、当然ブラウザで遊べるゲームも作る事ができるので、テトリス的なゲームを作ってもらいました。 このサービスに限らず、既にWEB

時計のG-shockでおなじみのCASIO(カシオ)の新サービス!AIで効果音が生成できる「Waves Place」を試してみた

時計のG-shockでおなじみのCASIO(カシオ)の新サービス!AIで効果音が生成できる「Waves Place」を試してみた

前に気になっていたけど、試していなかったので、今回試してみました。 CASIOのアカウントを作成する必要があります。 ちょっとめんどいですが、無料で試せるのでとりあえず作成して試してみました。 一応プレスリリースです。 AIで効果音が生成できる「Waves Place」とライブ配信専用スケジューラー「Streamer Times」を正式リリース 実際どんな交換が生成できるのか、結構気にはなってます。 効果音系のアプリも実は持っているので、そんなのと比較もしてみたいですが、今回はこのサービスがどんな感じかを試します。 まず、料金プランのリンクです。最新情報はこちらを参照してください。 一応現在時点のプランです。 フリープランでは商用は不可ですね。 「starter」プラン以降で商用利用可能です。 フリーだと月20回までお試しできる感じです。 月千円(「starter」プラン)で800回って事なので、普通は「starter」プランで使い切れない気がします。 使うとすると、基本的に必要な時に有料プランして、終わったらフリーに戻すみたいな使い方になりそうなサービスです。 実際

Latest

素人が作る実写っぽいミュージックビデオの作り方 その1

素人が作る実写っぽいミュージックビデオの作り方 その1

結構長くなりそうなので、何回かに分けて書きます。 続きは以下からどうぞ 素人が作る実写っぽいミュージックビデオの作り方 その2 今回作成したミュージックビデオです。 音楽以外はローカルで作成しました。 クラウドサービスは、結構サービス料金がかかりますが、GPUの購入価格と比較すると、どちらが高くなるかは、使用頻度なんかで変わるかと思います。 一点、ローカルで有利なので、試行錯誤を行いやすい事でしょうか? ローカル環境の紹介と大雑把な制作の流れ、クラウドとの比較なんかをしていきたいと思います。 今回の実際に作成した過程や、ローカル環境での細かい作り方等は次回行いたいと思います。 まず作成環境 動画生成 AMD Ryzen AI 9 HX 370 / Radeon 890M RTX5070TI 動画生成ツールは「ComfyUI」を使用 AIは「WAN2.2」と「humo」を使用しました。 音楽はSUNOを使用しました。 音楽作成はSUNO Ver4.5+が最新だったので、Ver4.5+です。 元々の女性はQwenImageを使用しました。 動画は比較的生成

比較的最近の気になったニュース9月23日

比較的最近の気になったニュース9月23日

「Claude」、チャットからPDFやスプレッドシートの作成が可能に 結構便利そうです。 ただセキュリティーの懸念はあるみたいなので、注意が必要かも。 「Googleドライブ」を使うみたいなので、専用のGoogleアカウントを作るとかですかね。 国内1000件の事例や製品を収録した「生成AI活用事例データベース」を公開─生成AI活用普及協会 事例を知るだけでも、色々と推測できたり思いがけない使われ方を知れたりするので結構有用に思います。 主従を入れ替えたIntelとNVIDIAの歴史的提携発表、その背景にAIデータセンターあり Intel主体の時はNVIDIAを拒み続けてきた訳ですが、NVIDIAが金の力でIntelをねじ伏せる日が来るとは・・・・ 沢山このニュースの記事はありますが、大手新聞記事含めてもこの記事が一番内容がいいです。 歴史的な経緯の解説がちゃんとあって、このニュースがどれだけ大きな意味を持つのかちゃんと書かれています。 表面的な記事を読むくらいなら、この記事を是非読んで欲しいです。 この記事を書かれている方は、この業界を長年取材して大変詳しい方です。

比較的最近の気になったニュース9月17日

比較的最近の気になったニュース9月17日

最近色々忙しい上に、動画のストックが無くて、絶賛ブログの更新が滞ってます・・・・ spec-workflow-mcpを使ってみたら気に入ったので、紹介する 確かにkiroがめっちゃ良かったので、ちゃんと仕様書を作って何か作った方が手戻りが少なかったり、結果早くできあがるなど良い事が多いので、それを実現するための別ツールとか紹介されると使って見たいですね。 また使ったら記事書こうと思います。 手はPS5コン、足はDDRコン。海外配信者が全身を使って『SEKIRO』“あの強敵”を2体同時撃破!超人技すぎる これは凄いというか、馬鹿(褒め言葉)ですねw 記事で動画が埋め込みで見られますが、画面2つとプレイヤーのGloomshadows氏が写っていますが、Gloomshadows氏の手元と足下を見ていると、何をしているか分からないので、画面を見ると片方しか見ているこちらが認識できないですw 見る方が忙しすぎて、なんか分からんけど凄いって結論ですw 中国実写“死にゲーADV”『盛世天下~女帝への道~』初動でSteam同接「1万人以上」のブレイク中。一寸先は死、危険すぎる宮廷サバイ

Googleの「Nano Banana」を使ってみる(「QWEN Image edit」と比較可能なテストしました)

Googleの「Nano Banana」を使ってみる(「QWEN Image edit」と比較可能なテストしました)

前回「QWEN Image edit」で行ったような事を、こちらでもやってみます。 前提条件として「QWEN Image edit」はローカルで動かしているので、制限がほぼ無い事と、試行回数を増やしていい結果が出るまでpromptの調節を繰り返しやすいですが、前回は実験だったので、基本的に最初に出してきた物を使っています 今回はGoogleのサービスで、更に無料プランで使用させてもらっているので、有料にした場合結果が違う事もあるかもしれません。 その辺はご了承ください。(AIサービスは基本的に有料プラン優遇です) それでは実験していきます。 「QWEN Image edit」で使用したお姉さんを使います。 この画像をアップロードして、プロンプトで変更していきます。 まずは、背景を変えていきます。 以下プロンプト 背景を大都市のビルの屋上にして、ホワイトボードを消してください。 空に大きく雲で"AIS blog"と書いてください。 女性には手を加えずに、背景を変更します。 Geminiの返答 はい、承知いたしました。背景を大都市のビルの屋上にして、ホ

比較的最近の気になったニュース9月09日

比較的最近の気になったニュース9月09日

YouTube、無許可でAIによる投稿動画の加工を行っていたと判明。クリエイターの間で波紋 記事読んでみると、加工の方向も「ぼやけやノイズを軽減」「画像を鮮明化」なので、内容に変更を加えるというより、映像をより見やすくするための物なので、敏感に反応しすぎな気はします。 そもそも、ネット上の映像や画像は人間の目の錯覚等を利用して、以下にデータを小さくするかを常に行っていて、音だってMP3なんて、可聴範囲外(人が聞き取れると言われている範囲外)を削ったり、その他色々な技術でデータサイズを小さくしているので、耳のいい人が聞くと分かると言われます。 早い話が、 ネット上にあるデジタルの音や画像ってのは、色々な技術でデータサイズを小さくしています。 その時点で、ものすごくデータは劣化していて、元の情報はかなり失われています。これも改変と言えば改変ですよね。 とは言え、その分データサイズは小さくなっているので、現在のインターネットでは必要不可欠です。データが小さければ小さいほど、ギガの消費は抑えられますし。 そんな中、新しい技術としてAIが出てきていますが、スマホやPC側で動画データを表示する時

Qwen Image editを使ってみた

Qwen Image editを使ってみた

「Qwen Image edit」は、既にある画像をプロンプトで加工する機能です。 基本的に元の画像を維持した状態で、プロンプトで指定した部分だけを変える事ができます。 ちなみに元々の「Qwen Image」には、テキストから画像生成するAIです。 過去の記事で紹介しているので参考にしてください。 では、実際に加工してみます。 「Qwen Image」で作成した画像を用意しました。 この画像を、加工していきます。 まずは、背景を変えていきます。 以下プロンプト 背景を大都市のビルの屋上にして、ホワイトボードを消してください。 空に大きく雲で"AIS blog"と書いてください。 完全に場所を変えてみます。 雲に文字を書いてみます。 以下が結果です 今度は、女性の着せ替えをやってみます。 以下がプロンプトです。 背景を大都市のビルの屋上にして、ホワイトボードを消してください。 空に大きく雲で"AIS blog"と書いてください。 女性の洋服をカジュアルなTシャツとホットパンツに替えてください 背景等のベースは同じで、服だけ変更してみ

Windows環境の「Claude Code」で「Serena」を使ってみる(主にエラー対応)

Windows環境の「Claude Code」で「Serena」を使ってみる(主にエラー対応)

使い方や、コマンド例など情報はかなりあるのですが、その通りやっても動かない。 Windowsでと書いてあっても、PowerShellで動かしていなかったり、ちょっと環境が違う。 ちなみに、AIにも聞いてみましたが、いまいちピントを外した解答だったので(一応提示された対応は試してみました)、まあそうだよねって結果でした。 PowerShell限定で更に調べてみると、同じような苦労をしている人が世界に何人かはいて、解決方法も提示してくれています。 Claude Code + Serena for Windows 記事を参照しつつまとめると このコマンドを実行するとエラーになる claude mcp add serena -- uvx --from git+https://github.com/oraios/serena serena-mcp-server --context ide-assistant --project $(pwd) error: unknown option '--from' このコマンドを実行するととりあえず動く claude mcp

文字に強い多言語AI画像生成「Qwen Image」を使ってみる

文字に強い多言語AI画像生成「Qwen Image」を使ってみる

サポート言語:日本語があるようなので、日本語の能力を試してみます。 多言語テキストレンダリング能力:英語、中国語、韓国語、日本語など複数の言語を含む画像を正確に生成でき、テキストは明確で読みやすく、画像スタイルと調和します そもそも中国初の生成AIなので、漢字には強うそうです。 初期設定のプロンプトで、看板の文字を日本語を入れて出力すると、こんな感じ この記事のタイトルも「Qwen Image」で作成しました。 プロンプトも Illustration in cartoon style. Beautiful Asian woman in gothic maid's outfit, wearing black high-heeled boots. Long, flowing black hair with twin-tails. Make-up is thin and natural. The woman

比較的最近の気になったニュース8月27日

比較的最近の気になったニュース8月27日

今日もセキュリティーニュース多めでお送りします。 グーグル、Gmailユーザーの大半が「パスワードを変更する必要性がある」と認める 色々書いてありますが、結論は「やばそうなので、Googleのパスワード変更しろ」って事ですねw。 Google Chromeの人気拡張機能が実はスパイウェア、10万DL超、おすすめバッジもついている無償VPN このアプリは便利なアプリを計画的に罠を仕掛けていったように見えます。 時間をかけてこういう事をやられてしまうと、判断できないですよね。 Windows11更新「KB5063878」でSSD/HDD故障報告相次ぐ 原因は不明、Microsoftが調査へ この手の不具合も困りますよね。 ユーザーはどうにもできないですし・・・・ マイクロソフトも現在のように完成されたOSで発生すると、原因の特定が難しいので、ある意味非常に怖い事でもあります。 記事にも「日本のPC自作メーカーからも最初の報告が寄せられており、国際的に同じ不具合が確認されつつあることが特徴的」と書かれていて、幅広く発生しているが、発生頻度が高い訳では無い所がなんとも言えませ

比較的最近の気になったニュース8月23日

「何もしない」が脳に効く科学的な根拠 分かった。今日は何もしない!! 鉱石採掘メカアクション『Mining Merchant』発表。精錬や販売までこなす宝飾店経営、人気採掘ゲーム『Mining Mechs』のスピンオフ 「Super Mining Mechs」の動画を公開していますが、「Mining Merchant」というシリーズの新作が発表されました。 かなり違う方向への進化が進んでいます。 クラフトや店舗の経営シミュレーション・・・こうなると「デイヴ・ザ・ダイバー」に似た感じのシステムになりますね。 https://store.steampowered.com/app/1868140/_/ システムが初期の「Mining Mechs」から徐々にパワーアップしています。なんか成長を見ているようで面白いです。 DeepSeek V3.1、衝撃の6850億パラメータで登場:Claude 4 Opusと同等以上の性能を約70分の1のコストで実現 頻繁にAI関連のニュースがありますが、またでかいのが来ました。 少し前にWAN2.2とかopenAIのgpt-ossなど、それ

ミニPCでローカルでAIを動かして、どんな返答があるかテストしてみた!クラウドとも比較してみるよ(GPT-5,Grok 4,Gemini 2.5 Pro,DeepSeek R1,Llama 3.3 70B,GPT-4o)

ミニPCでローカルでAIを動かして、どんな返答があるかテストしてみた!クラウドとも比較してみるよ(GPT-5,Grok 4,Gemini 2.5 Pro,DeepSeek R1,Llama 3.3 70B,GPT-4o)

今回は「グリコカレーの歴史をまとめてください」という、単旬なプロンプトで作成してもらった結果を比較していきます。 この手の調査してくださいは、よく使うと思うのと、グリコみたいな歴史があって、ちゃんと現在も続いている今回の題材がテストには丁度良さそうなのと、商品数が多すぎるのも比較しにくいので、今回の比較には丁度良いかと思います。 クラウドのAIはWEB検索機能が利用可能な場合、検索した情報から作成しています。 この記事を作成中にGPT-5が利用可能になっていたので追加しました。 最初は、クラウドのサービスを利用して、以下の6種類で比較します。 GPT-5 Grok 4 Gemini 2.5 Pro DeepSeek R1 Llama 3.3 70B GPT-4o ローカルLLMは deepseek-r1-distill-qwen-14b qwen-14b gemma-3-27b openai/gpt-oss-20b Grok 4 グリコカレーの歴史まとめ 江崎グリコ(Glico)は、元々菓子メーカーとして知られていますが、1950年代後半から食品分野への進出

久々に発表されたマイクロソフトの新機能「Copilot 3D」を使ってみる

久々に発表されたマイクロソフトの新機能「Copilot 3D」を使ってみる

記事 マイクロソフト、「Copilot 3D」を提供--画像1枚から手軽に3Dモデルを作成 AIって各社がしのぎを削っていて、ニュースが毎日のように出てくるのですが、早くからAIに取り組んでいるマイクロソフトのニュースはそれ程多くなかった印象です。 そんなマイクロソフトの新機能という事で、ちょっと期待しちゃいますね。(細かい更新は色々行われているみたいですけどね) そんな訳で、ちょっとやってみました。 サインインが必要なようです。 今回はマイクロソフトアカウントを使用しました。 公式で示されている用途は「ゲーム、アニメーション、3D 印刷、デザイン、VR/AR、デジタル コンテンツ、アート プロジェクト」と書かれているので、ゲームへの利用などもOKぽいです。 商用利用に関してはあまり詳しく書かれていない印象ですが、想定していそうな感じがしますが、商用利用は要確認ですね ファイル形式は「GLB 形式」でダウンロードできます。 あと、「作品は 28 日間、[自分の作品] ページに保存されます。その後、システムから自動的に削除」だそうです。 「Copilot 3D」 お