音楽生成AI「ACE-Step v1.5」が本当に「Suno v4.5」を越えるのか聞き比べできるようにしてみた
こんな記事があったので、実際にsunoでも同じ歌詞の曲を作ってm比較してみます。
無料で「Suno v4.5」超え? 音楽生成AI「ACE-Step v1.5」公開 個人向けGPUでも動作
「ACE-Step v1.5」は、ComfyUIにテンプレートがあるので、簡単に利用できまます。
軽く曲を作って、「suno v4.5」でも作成してみます。ついでに「suno v5.0」でも作成して、比較してみたいと思います。
まずは、作成する曲についてです。
曲調などのスタイルは
Style Prompt: Acoustic Guitar, Folk, Country, Warm, Upbeat, Female vocal
このような指定で、ギター中心のカントリーで、ボーカルは女性を指定しました。
続いて歌詞ですが、以下のような歌詞です。
ちなみに「Cast n Chill」というゲームをイメージしてAIに作成してもらいました。モデルは「Gemini 3 PRO」です。
https://store.steampowered.com/app/3483740/Cast_n_Chill/
[Intro]
(Acoustic guitar strumming)
[Verse 1]
リュックひとつ 地図も持たずに
川のせせらぎ 呼んでる方へ
昨日のミスも 忘れてしまえ
今の僕には この竿がある
[Verse 2]
小さな魚 大きな魚
どんな出会いも 宝物だよ
キラキラ光る 鱗のサイン
コンプリートまで あと少しかな
[Pre-Chorus]
待ってる時間も 悪くはないさ
雲が流れる 形を変えて
コーヒー片手に 深呼吸
[Chorus]
投げて巻いて また投げて
単純なこと 繰り返すだけ
難しいこと 今は要らない
太陽の下 あくびをひとつ
[Guitar‐solo]
[Verse 3]
アップグレード 道具を磨き
まだ見ぬ海へ 足を伸ばそう
波のリズム 心に合わせて
のんびり行こう 焦りはないさ
[Bridge]
誰かの声も 届かない場所
自分らしさを 取り戻す場所
水しぶきが 教えてくれる
世界はもっと シンプルだって
[Chorus]
投げて巻いて また投げて
単純なこと 愛おしいだけ
難しいこと 全部忘れて
風に吹かれて 口笛吹こう
[Ending]
La la la...
釣れたかな?
また明日
まずは、「ACE-Step v1.5」で曲を作りました。
生成時間ですが、「RTX-5070 ti」の環境でモデルを読み込む時間を入れて32秒程度です。
2回目は26秒程度だったので、実質な生成時間はこのぐらいですね。
実際に出来た曲はこちらになります。聞いてみてください。
ACE-Step v1.52曲目です
全般的に悪くないですが、歌詞を間違えていたり、読み飛ばしたり2回歌ったり等、問題も多いです。
漢字の読み間違えとかは、平仮名に修正して対応できますが、歌詞を飛ばしたり繰り返し歌う部分は、何回も生成して良いのを使うしか無いかもしれません。
今度はsuno4.5で作成しました
suno4.5で2曲目
できあがりは、結構違いがありますが、どちらもいい感じに出来ています。
曲の厚みや、サビの盛り上がりは結構さがあるように感じます。
カントリーの曲調の問題もあるかと思いますが、「suno4.5」相当は盛りすぎかなって気がします。
ただ無料と有料の差がある上に、商用利用に関しての規約の違い(「ACE-Step v1.5」の方がゆるいので、使い勝手がいい)等、いい点もあれば、単純に曲以外の部分を考えると、「ACE-Step v1.5」の使い勝手の良さが際立っています。
「suno 5.0」でも作成してみたので、聞いてみてください。
流石に「suno 5.0」は、ワンランク上って感じで、特にサビの盛り上げ方にはかなりの差があるように思います。
ボーカルに感情的な表現すら入っているので、「ACE-Step v1.5」はその辺が一歩及んでいないかなと感じます。

ここで、「ACE-Step」と「suno」の違いを比較してみます。
これは、比較記事にありがちなスペック比較なので、読み飛ばしてもいいですw
以下、「ACE-Step 1.5(Hugging Face: ACE-Step/Ace-Step1.5)」と「Suno」を、指定の順番で比較表にまとめます。評価が主観になりやすい「音質/クオリティ」は、**“傾向”**として整理します。
1) 音質や曲そのもののクオリティ(傾向)
| 観点 | ACE-Step 1.5(ローカル/OSSモデル) | Suno(商用サービス) |
|---|---|---|
| “完成品っぽさ”(構成の自然さ・展開) | モデル単体というより使い方(プロンプト/設定/後処理)に依存しやすい。うまくハマると強いが、調整が必要になりがち。 | 最初から完成曲として聴ける体験に寄せたチューニング/プロダクト設計になりやすい(UI含めた総合品質)。※ただし内部仕様は非公開。 |
| プロンプト追従 | 「50+言語での厳密な追従」をうたっている(主張ベース)。 | 良くも悪くも“サービス側の最適化”が効く(意図しない補完も起き得る)。仕様詳細は規約/ヘルプ範囲での公開に依存。 |
| 生成の安定性(当たり外れ) | 実行環境(VRAM/推論設定/モデル派生)でブレやすい。 | サービス側で環境が固定されるため、体感は安定しやすい(ただし混雑や仕様変更の影響は受ける)。 |
| ボーカル/歌詞込みの“商品感” | 可能だが、モデル選択やワークフロー次第(モデルカード上は歌詞等も扱う設計を示唆)。 | もともと“歌もの生成”の体験が強みとして語られやすい(機能や権利はプラン/規約依存)。 |
| {w=20} |
2) 技術的な差
| 観点 | ACE-Step 1.5 | Suno |
|---|---|---|
| 公開性 | モデル/実装が公開(Hugging Face配布+GitHubでプロジェクト公開)。 | クローズド(モデル詳細・学習データ・推論パイプラインは原則非公開)。 |
| アーキテクチャ概要 | モデルカードでは、**LM(プランナー)+Diffusion Transformer(DiT)**のハイブリッド、CoTで青写真生成などを説明。 | 公開情報は限定的(UI/提供機能中心)。詳細技術は利用規約・ヘルプの範囲に留まる。 |
| 速度/ローカル実行 | 消費者向けGPUでも動く、VRAM 4GB未満をうたう。高速生成も主張。 | ローカル動作ではなくクラウド生成が基本。ユーザー側はスペック要件が軽い。 |
| 編集・派生機能 | モデルカード上、cover / repaint / vocal-to-BGM等“編集系”も統合をうたう(実際の体験は実装/デモ依存)。 | サービスとしての編集/拡張機能は提供され得るが、範囲はプロダクト仕様依存。 |
| 組み込み(自動化) | OSSなので自前パイプライン/社内ツールに組み込みやすい(ただし運用は自分で面倒を見る)。 | 連携はサービス仕様次第(UI中心だと自動化は制約されやすい)。 |
3) 商用の可否などライセンス関連(重要)
| 観点 | ACE-Step 1.5 | Suno |
|---|---|---|
| ライセンスの明示 | Hugging Face上で License: MIT と明記。 | 利用は Terms(利用規約) に従う。 |
| 商用利用の扱い(生成物) | モデルカードで「生成音楽を商用利用できる」趣旨を強く主張(“Commercial-Ready”)。 さらにMITは一般に商用利用を許容する“緩い”OSSライセンス。 | Sunoのヘルプでは、サブスク加入中の生成曲に商用利用権が付与される旨が説明されている(プラン条件に依存)。 |
| 学習データの説明(権利リスク認識) | 「ライセンスされた音源・ロイヤリティフリー/パブリックドメイン・合成データ」等、法的にコンプライアンスしたデータをうたう。 | 学習データの詳細は通常非公開。利用者は規約に基づく利用が中心。 |
| 実務上の注意点 | “MIT=何でも安心”ではなく、商用リリース前に(1)モデル/コードのMIT条文、(2)配布物に必要な著作権表示、(3)生成物の類似性チェック(既存曲に似すぎないか)などは別途推奨。 | 無料枠/有料枠で商用可否が変わるタイプの設計になり得るので、公開・販売・配信前に「あなたのプランでの権利」を規約/ヘルプで確認が必須。 |
どっちを選ぶべきか(結論だけ)
- 商用を“規約上シンプルに”進めたい/すぐ曲がほしい:Suno(ただしプラン条件の確認が前提)
- ローカル運用・組み込み・コスト最適化・透明性(MIT/OSS)を重視:ACE-Step 1.5
と言う訳で、聞き比べてみると、結構違いが分かるかと思います。
性能は多少落ちても、無料な事を考えると「ACE-Step v1.5」は十分有効かと思います。