音楽生成AI「ACE-Step v1.5」が本当に「Suno v4.5」を越えるのか聞き比べできるようにしてみた

音楽生成AI「ACE-Step v1.5」が本当に「Suno v4.5」を越えるのか聞き比べできるようにしてみた

こんな記事があったので、実際にsunoでも同じ歌詞の曲を作ってm比較してみます。

無料で「Suno v4.5」超え? 音楽生成AI「ACE-Step v1.5」公開 個人向けGPUでも動作

「ACE-Step v1.5」は、ComfyUIにテンプレートがあるので、簡単に利用できまます。
軽く曲を作って、「suno v4.5」でも作成してみます。ついでに「suno v5.0」でも作成して、比較してみたいと思います。

まずは、作成する曲についてです。

曲調などのスタイルは

Style Prompt: Acoustic Guitar, Folk, Country, Warm, Upbeat, Female vocal

このような指定で、ギター中心のカントリーで、ボーカルは女性を指定しました。

続いて歌詞ですが、以下のような歌詞です。
ちなみに「Cast n Chill」というゲームをイメージしてAIに作成してもらいました。モデルは「Gemini 3 PRO」です。
https://store.steampowered.com/app/3483740/Cast_n_Chill/

[Intro]
(Acoustic guitar strumming)

[Verse 1]
リュックひとつ 地図も持たずに
川のせせらぎ 呼んでる方へ
昨日のミスも 忘れてしまえ
今の僕には この竿がある

[Verse 2]
小さな魚 大きな魚
どんな出会いも 宝物だよ
キラキラ光る 鱗のサイン
コンプリートまで あと少しかな

[Pre-Chorus]
待ってる時間も 悪くはないさ
雲が流れる 形を変えて
コーヒー片手に 深呼吸

[Chorus]
投げて巻いて また投げて
単純なこと 繰り返すだけ
難しいこと 今は要らない
太陽の下 あくびをひとつ

[Guitar‐solo]

[Verse 3]
アップグレード 道具を磨き
まだ見ぬ海へ 足を伸ばそう
波のリズム 心に合わせて
のんびり行こう 焦りはないさ

[Bridge]
誰かの声も 届かない場所
自分らしさを 取り戻す場所
水しぶきが 教えてくれる
世界はもっと シンプルだって

[Chorus]
投げて巻いて また投げて
単純なこと 愛おしいだけ
難しいこと 全部忘れて
風に吹かれて 口笛吹こう

[Ending]
La la la...
釣れたかな?
また明日

まずは、「ACE-Step v1.5」で曲を作りました。
生成時間ですが、「RTX-5070 ti」の環境でモデルを読み込む時間を入れて32秒程度です。
2回目は26秒程度だったので、実質な生成時間はこのぐらいですね。

実際に出来た曲はこちらになります。聞いてみてください。

audio-thumbnail
ACE Step01
0:00
/120

ACE-Step v1.52曲目です

audio-thumbnail
ACE Step02
0:00
/120

全般的に悪くないですが、歌詞を間違えていたり、読み飛ばしたり2回歌ったり等、問題も多いです。
漢字の読み間違えとかは、平仮名に修正して対応できますが、歌詞を飛ばしたり繰り返し歌う部分は、何回も生成して良いのを使うしか無いかもしれません。

今度はsuno4.5で作成しました

audio-thumbnail
suno 4.5 Cast n Chill 01
0:00
/194.879979

suno4.5で2曲目

audio-thumbnail
suno 4.5 Cast n Chill 02
0:00
/214.359979

できあがりは、結構違いがありますが、どちらもいい感じに出来ています。
曲の厚みや、サビの盛り上がりは結構さがあるように感じます。
カントリーの曲調の問題もあるかと思いますが、「suno4.5」相当は盛りすぎかなって気がします。
ただ無料と有料の差がある上に、商用利用に関しての規約の違い(「ACE-Step v1.5」の方がゆるいので、使い勝手がいい)等、いい点もあれば、単純に曲以外の部分を考えると、「ACE-Step v1.5」の使い勝手の良さが際立っています。

「suno 5.0」でも作成してみたので、聞いてみてください。

audio-thumbnail
suno 5.0 Cast n Chill 01
0:00
/173.919979
audio-thumbnail
suno 5.0 Cast n Chill 02
0:00
/220.919979

流石に「suno 5.0」は、ワンランク上って感じで、特にサビの盛り上げ方にはかなりの差があるように思います。
ボーカルに感情的な表現すら入っているので、「ACE-Step v1.5」はその辺が一歩及んでいないかなと感じます。

ここで、「ACE-Step」と「suno」の違いを比較してみます。
これは、比較記事にありがちなスペック比較なので、読み飛ばしてもいいですw

以下、「ACE-Step 1.5(Hugging Face: ACE-Step/Ace-Step1.5)」と「Suno」を、指定の順番で比較表にまとめます。評価が主観になりやすい「音質/クオリティ」は、**“傾向”**として整理します。


1) 音質や曲そのもののクオリティ(傾向)

観点 ACE-Step 1.5(ローカル/OSSモデル) Suno(商用サービス)
“完成品っぽさ”(構成の自然さ・展開) モデル単体というより使い方(プロンプト/設定/後処理)に依存しやすい。うまくハマると強いが、調整が必要になりがち。 最初から完成曲として聴ける体験に寄せたチューニング/プロダクト設計になりやすい(UI含めた総合品質)。※ただし内部仕様は非公開。
プロンプト追従 「50+言語での厳密な追従」をうたっている(主張ベース)。 良くも悪くも“サービス側の最適化”が効く(意図しない補完も起き得る)。仕様詳細は規約/ヘルプ範囲での公開に依存。
生成の安定性(当たり外れ) 実行環境(VRAM/推論設定/モデル派生)でブレやすい。 サービス側で環境が固定されるため、体感は安定しやすい(ただし混雑や仕様変更の影響は受ける)。
ボーカル/歌詞込みの“商品感” 可能だが、モデル選択やワークフロー次第(モデルカード上は歌詞等も扱う設計を示唆)。 もともと“歌もの生成”の体験が強みとして語られやすい(機能や権利はプラン/規約依存)。
{w=20}

2) 技術的な差

観点 ACE-Step 1.5 Suno
公開性 モデル/実装が公開(Hugging Face配布+GitHubでプロジェクト公開)。 クローズド(モデル詳細・学習データ・推論パイプラインは原則非公開)。
アーキテクチャ概要 モデルカードでは、**LM(プランナー)+Diffusion Transformer(DiT)**のハイブリッド、CoTで青写真生成などを説明。 公開情報は限定的(UI/提供機能中心)。詳細技術は利用規約・ヘルプの範囲に留まる。
速度/ローカル実行 消費者向けGPUでも動く、VRAM 4GB未満をうたう。高速生成も主張。 ローカル動作ではなくクラウド生成が基本。ユーザー側はスペック要件が軽い。
編集・派生機能 モデルカード上、cover / repaint / vocal-to-BGM等“編集系”も統合をうたう(実際の体験は実装/デモ依存)。 サービスとしての編集/拡張機能は提供され得るが、範囲はプロダクト仕様依存。
組み込み(自動化) OSSなので自前パイプライン/社内ツールに組み込みやすい(ただし運用は自分で面倒を見る)。 連携はサービス仕様次第(UI中心だと自動化は制約されやすい)。

3) 商用の可否などライセンス関連(重要)

観点 ACE-Step 1.5 Suno
ライセンスの明示 Hugging Face上で License: MIT と明記。 利用は Terms(利用規約) に従う。
商用利用の扱い(生成物) モデルカードで「生成音楽を商用利用できる」趣旨を強く主張(“Commercial-Ready”)。 さらにMITは一般に商用利用を許容する“緩い”OSSライセンス。 Sunoのヘルプでは、サブスク加入中の生成曲に商用利用権が付与される旨が説明されている(プラン条件に依存)。
学習データの説明(権利リスク認識) 「ライセンスされた音源・ロイヤリティフリー/パブリックドメイン・合成データ」等、法的にコンプライアンスしたデータをうたう。 学習データの詳細は通常非公開。利用者は規約に基づく利用が中心。
実務上の注意点 “MIT=何でも安心”ではなく、商用リリース前に(1)モデル/コードのMIT条文、(2)配布物に必要な著作権表示、(3)生成物の類似性チェック(既存曲に似すぎないか)などは別途推奨。 無料枠/有料枠で商用可否が変わるタイプの設計になり得るので、公開・販売・配信前に「あなたのプランでの権利」を規約/ヘルプで確認が必須。

どっちを選ぶべきか(結論だけ)

  • 商用を“規約上シンプルに”進めたい/すぐ曲がほしい:Suno(ただしプラン条件の確認が前提)
  • ローカル運用・組み込み・コスト最適化・透明性(MIT/OSS)を重視:ACE-Step 1.5

と言う訳で、聞き比べてみると、結構違いが分かるかと思います。
性能は多少落ちても、無料な事を考えると「ACE-Step v1.5」は十分有効かと思います。

Read more

キシリトールって歯に本当にいいの?エリスリトールとアルロースって何?AIに聞いて調べてみた!

キシリトールって歯に本当にいいの?エリスリトールとアルロースって何?AIに聞いて調べてみた!

キシリトールガムなどが出てから、キシリトールは歯に良いって話があるのですが、科学的にどうなのか? 調べると近しい甘味料としてエリスリトールとアルロースが出てきましたが、これってって何? その辺をAIに聞いて調べました。 今回使用したAIです。 Gemini3 PRO gpt-oss:120b(ローカル) GPT5.2 など高性能なAIを取りそろえて、色々聞いた結果をまとめています。 とは言え、結論が欲しい方のために最初に結論を比較できるようにまとめました。 内容をもう少し掘り下げたい人は、その先を読んでもらえればと思います。 しかもNANObananaにわかりやすい画像にまとめてもらったので、こちらを見れば一目瞭然です。 まずは、歯への影響です。 キシリトールなんかは分かっていましたが、エリスリトールがかなり優秀です。 次は、人体への影響です。 歯に良くても体に負担がかかると良くありません。 キシリトールはお腹がゆるくなる問題がありますし。 こうして見てみると、歯にとってはエリスリトールが優秀ですね。 そして、ダイエットならアルロースって感じでしょうか。

比較的最近の気になったニュース2026年1月21日

比較的最近の気になったニュース2026年1月21日

まるで成長していない。「USB4」になっても呼び名が混乱している件。Gen 2とか相変わらず分かりにくいまま 本当にUSB企画は分かりにくいというか、使う人の事を考えていないですよね。 USB3の時に規格がぶれまくって、整理するかと思いきや、 USB4になって、何も変わらずグダグダって・・・ なぜ『ボーダーブレイク』は国際的成功の好機を逃してしまったのか―結局日本限定でしか遊べなかった、理想的な「海外ゲーマー向け」作品【オリーさんのロボゲーコラム】 お財布ブレイクでも有名なボーダーブレイクは確かに世界的な人気作品になっても良さそうなゲームルールとデザインだと思うのですが、惜しい作品だと思います。 その辺の経緯や問題などをまとめられていて、非常に読み応えがあったので、興味がある方は是非読んでみてください。 “積みゲー”がタワーとして可視化できるツール「ツミナビ」が無料公開中。Steamアカウントと連携すると、所有しているゲームのリスト化やゲーマータイプ診断、傾向の分析などをおこなってくれる 紹介記事では10本ぐらいのアカウントで試しているようなので、ゲームの所持数が影響

最近気になった記事2026年01月14日

最近気になった記事2026年01月14日

GPT-5.2とGemini3の画像作成で大きな違いが出るのはなぜか GPTとGeminiの設計思想の違いを解説しています。 両方の特徴を理解して使い分ければ、欲しい情報や回答を得やすいって事だと思います。 記事では、以下のように GPT-5.2が考えるAIとして設計 と書かれており、考えをまとめたり問題点を洗い出すなど、何かをする前の準備段階で有効に使えそうで、 Gemini3は次のように書かれていて、 Gemini3は、業務で使われる成果物を作ることを強く意識した設計 最終的にまとめる時や、資料となる画像や具体的な書類を作成するのに向いている感じですね。 記事には以下のように書かれており、 GPT-5.2は、思考から表現へ進みます。Gemini3は、成果物から構成を逆算 GPT-5.2は優秀な戦略コンサルタントです。Gemini3は優秀な資料作成担当 アプローチが真逆なのが面白いですね。 だからこそ、使うタイミングや使い方が大事だと分かります。 更に、 日本語の文字化け問題は、すべての言語で同じように起きているわけではありません。 と書かれていて、そ