音楽生成AI「ACE-Step v1.5」が本当に「Suno v4.5」を越えるのか聞き比べできるようにしてみた

音楽生成AI「ACE-Step v1.5」が本当に「Suno v4.5」を越えるのか聞き比べできるようにしてみた

こんな記事があったので、実際にsunoでも同じ歌詞の曲を作って比較してみます。

無料で「Suno v4.5」超え? 音楽生成AI「ACE-Step v1.5」公開 個人向けGPUでも動作

「ACE-Step v1.5」は、ComfyUIにテンプレートがあるので、簡単に利用できまます。
軽く曲を作って、「suno v4.5」でも作成してみます。ついでに「suno v5.0」でも作成して、比較してみたいと思います。

まずは、作成する曲についてです。

曲調などのスタイルは

Style Prompt: Acoustic Guitar, Folk, Country, Warm, Upbeat, Female vocal

このような指定で、ギター中心のカントリーで、ボーカルは女性を指定しました。

続いて歌詞ですが、以下のような歌詞です。
ちなみに「Cast n Chill」というゲームをイメージしてAIに作成してもらいました。モデルは「Gemini 3 PRO」です。
https://store.steampowered.com/app/3483740/Cast_n_Chill/

[Intro]
(Acoustic guitar strumming)

[Verse 1]
リュックひとつ 地図も持たずに
川のせせらぎ 呼んでる方へ
昨日のミスも 忘れてしまえ
今の僕には この竿がある

[Verse 2]
小さな魚 大きな魚
どんな出会いも 宝物だよ
キラキラ光る 鱗のサイン
コンプリートまで あと少しかな

[Pre-Chorus]
待ってる時間も 悪くはないさ
雲が流れる 形を変えて
コーヒー片手に 深呼吸

[Chorus]
投げて巻いて また投げて
単純なこと 繰り返すだけ
難しいこと 今は要らない
太陽の下 あくびをひとつ

[Guitar‐solo]

[Verse 3]
アップグレード 道具を磨き
まだ見ぬ海へ 足を伸ばそう
波のリズム 心に合わせて
のんびり行こう 焦りはないさ

[Bridge]
誰かの声も 届かない場所
自分らしさを 取り戻す場所
水しぶきが 教えてくれる
世界はもっと シンプルだって

[Chorus]
投げて巻いて また投げて
単純なこと 愛おしいだけ
難しいこと 全部忘れて
風に吹かれて 口笛吹こう

[Ending]
La la la...
釣れたかな?
また明日

まずは、「ACE-Step v1.5」で曲を作りました。
生成時間ですが、「RTX-5070 ti」の環境でモデルを読み込む時間を入れて32秒程度です。
2回目は26秒程度だったので、実質な生成時間はこのぐらいですね。

実際に出来た曲はこちらになります。聞いてみてください。

audio-thumbnail
ACE Step01
0:00
/120

ACE-Step v1.52曲目です

audio-thumbnail
ACE Step02
0:00
/120

全般的に悪くないですが、歌詞を間違えていたり、読み飛ばしたり2回歌ったり等、問題も多いです。
漢字の読み間違えとかは、平仮名に修正して対応できますが、歌詞を飛ばしたり繰り返し歌う部分は、何回も生成して良いのを使うしか無いかもしれません。

今度はsuno4.5で作成しました

audio-thumbnail
suno 4.5 Cast n Chill 01
0:00
/194.879979

suno4.5で2曲目

audio-thumbnail
suno 4.5 Cast n Chill 02
0:00
/214.359979

できあがりは、かなりの違いがありつつも、どちらもいい感じに出来ています。
曲の厚みや、サビの盛り上がりは結構差があるように感じます。
カントリーの曲調に問題もあるかと思いますが、「suno4.5」相当は盛りすぎかなって気がします。
ただ無料と有料の差がある上に、商用利用に関しての規約の違い(「ACE-Step v1.5」の方がゆるいので、使い勝手がいい)等もあるので、単純に曲以外の部分を考えると、「ACE-Step v1.5」の使い勝手の良さが際立っています。

「suno 5.0」でも作成してみたので、聞いてみてください。

audio-thumbnail
suno 5.0 Cast n Chill 01
0:00
/173.919979
audio-thumbnail
suno 5.0 Cast n Chill 02
0:00
/220.919979

流石に「suno 5.0」は、ワンランク上って感じで、特にサビの盛り上げ方にはかなりの差があるように思います。
ボーカルに感情的な表現すら入っているので、「ACE-Step v1.5」はその辺が一歩及んでいないかなと感じます。

ここで、「ACE-Step」と「suno」の違いを比較してみます。
これは、比較記事にありがちなスペック比較なので、読み飛ばしてもいいですw

以下、「ACE-Step 1.5(Hugging Face: ACE-Step/Ace-Step1.5)」と「Suno」を、指定の順番で比較表にまとめます。評価が主観になりやすい「音質/クオリティ」は、**“傾向”**として整理します。


1) 音質や曲そのもののクオリティ(傾向)

観点 ACE-Step 1.5(ローカル/OSSモデル) Suno(商用サービス)
“完成品っぽさ”(構成の自然さ・展開) モデル単体というより使い方(プロンプト/設定/後処理)に依存しやすい。うまくハマると強いが、調整が必要になりがち。 最初から完成曲として聴ける体験に寄せたチューニング/プロダクト設計になりやすい(UI含めた総合品質)。※ただし内部仕様は非公開。
プロンプト追従 「50+言語での厳密な追従」をうたっている(主張ベース)。 良くも悪くも“サービス側の最適化”が効く(意図しない補完も起き得る)。仕様詳細は規約/ヘルプ範囲での公開に依存。
生成の安定性(当たり外れ) 実行環境(VRAM/推論設定/モデル派生)でブレやすい。 サービス側で環境が固定されるため、体感は安定しやすい(ただし混雑や仕様変更の影響は受ける)。
ボーカル/歌詞込みの“商品感” 可能だが、モデル選択やワークフロー次第(モデルカード上は歌詞等も扱う設計を示唆)。 もともと“歌もの生成”の体験が強みとして語られやすい(機能や権利はプラン/規約依存)。
{w=20}

2) 技術的な差

観点 ACE-Step 1.5 Suno
公開性 モデル/実装が公開(Hugging Face配布+GitHubでプロジェクト公開)。 クローズド(モデル詳細・学習データ・推論パイプラインは原則非公開)。
アーキテクチャ概要 モデルカードでは、**LM(プランナー)+Diffusion Transformer(DiT)**のハイブリッド、CoTで青写真生成などを説明。 公開情報は限定的(UI/提供機能中心)。詳細技術は利用規約・ヘルプの範囲に留まる。
速度/ローカル実行 消費者向けGPUでも動く、VRAM 4GB未満をうたう。高速生成も主張。 ローカル動作ではなくクラウド生成が基本。ユーザー側はスペック要件が軽い。
編集・派生機能 モデルカード上、cover / repaint / vocal-to-BGM等“編集系”も統合をうたう(実際の体験は実装/デモ依存)。 サービスとしての編集/拡張機能は提供され得るが、範囲はプロダクト仕様依存。
組み込み(自動化) OSSなので自前パイプライン/社内ツールに組み込みやすい(ただし運用は自分で面倒を見る)。 連携はサービス仕様次第(UI中心だと自動化は制約されやすい)。

3) 商用の可否などライセンス関連(重要)

観点 ACE-Step 1.5 Suno
ライセンスの明示 Hugging Face上で License: MIT と明記。 利用は Terms(利用規約) に従う。
商用利用の扱い(生成物) モデルカードで「生成音楽を商用利用できる」趣旨を強く主張(“Commercial-Ready”)。 さらにMITは一般に商用利用を許容する“緩い”OSSライセンス。 Sunoのヘルプでは、サブスク加入中の生成曲に商用利用権が付与される旨が説明されている(プラン条件に依存)。
学習データの説明(権利リスク認識) 「ライセンスされた音源・ロイヤリティフリー/パブリックドメイン・合成データ」等、法的にコンプライアンスしたデータをうたう。 学習データの詳細は通常非公開。利用者は規約に基づく利用が中心。
実務上の注意点 “MIT=何でも安心”ではなく、商用リリース前に(1)モデル/コードのMIT条文、(2)配布物に必要な著作権表示、(3)生成物の類似性チェック(既存曲に似すぎないか)などは別途推奨。 無料枠/有料枠で商用可否が変わるタイプの設計になり得るので、公開・販売・配信前に「あなたのプランでの権利」を規約/ヘルプで確認が必須。

どっちを選ぶべきか(結論だけ)

  • 商用を“規約上シンプルに”進めたい/すぐ曲がほしい:Suno(ただしプラン条件の確認が前提)
  • ローカル運用・組み込み・コスト最適化・透明性(MIT/OSS)を重視:ACE-Step 1.5

と言う訳で、聞き比べてみると、結構違いが分かるかと思います。
性能は多少落ちても、無料な事を考えると「ACE-Step v1.5」は十分有効かと思います。

Read more

「NANObanana」があれば、LINEスタンプいらなくね?

「NANObanana」があれば、LINEスタンプいらなくね?

LINEスタンプはすぐに返せて便利なんですが、返したいスタンプを探すのが結構手間になってきています。 スタンプをそれ程沢山持っている訳じゃないんですが、30弱程度あります。 それだけでも、確かこんなのあったなとか、軽い感じのお礼スタンプどれがいいかなとか、選ぶのに時間がかかると、手軽に返せるスタンプの意味がありません。 そこで「NANObanana」です。画像に日本語も入れてもらえるので、スタンプが必要な時に、その場にあったスタンプを作ってしまえばいい!! と言う事で、やってみました。 スタンプのプロンプトは、うまい人がいると思うので、そこを突き詰めたい人はその手の記事を参考にしてください。 今回は、お手軽にその場でスタンプを作って、友人とかに利用するってお話です。 とは言え、イメージ通りの結果は欲しいので、何を注意すればそれっぽく作れるのかは少し実験してみたいと思います。 まずはAIに素直に聞いてみる。AIの事はAIに聞くのが一番です。 次の事に注意しろと教えてもらえます。 キャラクター設定: どのキャラクターを使いたいかを明確に指定します。 セリフや感情表現: どのようなセ

「Claude Code」 関連記事まとめ

「Claude Code」 関連記事まとめ

日々「Claude Code」を使用していますが、新しいツールや「Claude Code」自信もバージョンアップしているため、私自身もアップデートしていかないと、いつの間にか置いて行かれて非効率な使い方をしていたなんて事になりかねません。 と言う訳で、個人的に参考になったり、読んでいて面白かった記事をピックアップしました。 良ければ参考にしてください。 簡単コピペでClaude Codeに144種類のエージェントチームを作成 ── agency-agentsという40Kスター超のAIエージェント集を使いこなす 「Claude Code」は、エージェント次第で生成するコードの質が変わってきます。 まだ使ってはいませんが、使って見ようと思ってます。 効果的なCLAUDE.mdの書き方 「Claude Code」は「CLAUDE.md」の書き方次第でも違いが出るので、この辺も見ておくといいかも内容です。「Claude Code」を使う上での基本ですね。 【2026年版】Claude Codeを最強にするプラグイン・MCP・ツール総まとめ これも結構参考になると思います。 はやり廃りがあ

最近気になったWindowsのツール その1

最近気になったWindowsのツール その1

色々と新しい便利ツールがありますが、使って見て良かった物なんかを紹介します。 GPUによる高速圧縮・解凍アプリ「CoZip」が登場、外部から使えるライブラリもあり 以下がGITのURLです https://github.com/bea4dev/cozip?tab=readme-ov-file この手の圧縮や展開ソフトは、CPUでやるのが当たり前のような状態でしたが、GPUを使って高速化するというアプリが出てきました。 ゲーミングPCなんかだと、圧縮や展開速度をGPUで高速化できます。 ありそうで無かったアプリかなと思います。 Markdown関連ツール AIはMarkdown形式の書式で解答をしてくる事が多々あります。 その時、それを見たり編集したい時に便利なツールないかなと思ったら色々ありました。 そんな訳で、「VS Code」の拡張機能1つと専用のエディタ2種類です。 VS CodeでMarkdownプレビューのまま編集したくて拡張機能を作った 「VS Code」の拡張機能です。PDFに変換する拡張機能などがありますが、編集が便利な拡張機能をあまり見かけなかったので

比較的最近の気になったAI関連ニュース2026年03月23日

比較的最近の気になったAI関連ニュース2026年03月23日

理論上は可能、現実には不可能だった技術 EUVの正体 半導体の露光装置で、一昔前は日本もトップランナーでした。 ニコンなんかが強かったですが、今では「ASML」の独壇場です。 その理由や経緯などがまとめられているので、興味のある方は読んでみてください。 AIの構造や動作を見る読み物です。 AI Coding Agent の内部構造はどうなっているのか、自作して確かめてみた コーディングエージェントがどのように動いているのか、内部的な動作を検証した ローカルLLMで2万文字のドキュメント分析を試した話 - DeepSeek-R1 32Bの実力検証 ローカルLLMの性能もどんどん高くなってきているので、そろそろクラウドとローカルを、処理する内容によって使い分けると効率よくなるケースも出てきそうです。 VIDIA 公式の日本語強化 LLM Nemotron 9B-v2-Japanese を色々なケースで試してみた Nemotron-Nano-9B-v2-Japaneseってなんだ?〜NVIDIAが放つ日本語特化9Bモデルをローカルで完全攻略〜 「Nemotron-Nano-9B-v