音楽生成AI「ACE-Step v1.5」が本当に「Suno v4.5」を越えるのか聞き比べできるようにしてみた

音楽生成AI「ACE-Step v1.5」が本当に「Suno v4.5」を越えるのか聞き比べできるようにしてみた

こんな記事があったので、実際にsunoでも同じ歌詞の曲を作って比較してみます。

無料で「Suno v4.5」超え? 音楽生成AI「ACE-Step v1.5」公開 個人向けGPUでも動作

「ACE-Step v1.5」は、ComfyUIにテンプレートがあるので、簡単に利用できまます。
軽く曲を作って、「suno v4.5」でも作成してみます。ついでに「suno v5.0」でも作成して、比較してみたいと思います。

まずは、作成する曲についてです。

曲調などのスタイルは

Style Prompt: Acoustic Guitar, Folk, Country, Warm, Upbeat, Female vocal

このような指定で、ギター中心のカントリーで、ボーカルは女性を指定しました。

続いて歌詞ですが、以下のような歌詞です。
ちなみに「Cast n Chill」というゲームをイメージしてAIに作成してもらいました。モデルは「Gemini 3 PRO」です。
https://store.steampowered.com/app/3483740/Cast_n_Chill/

[Intro]
(Acoustic guitar strumming)

[Verse 1]
リュックひとつ 地図も持たずに
川のせせらぎ 呼んでる方へ
昨日のミスも 忘れてしまえ
今の僕には この竿がある

[Verse 2]
小さな魚 大きな魚
どんな出会いも 宝物だよ
キラキラ光る 鱗のサイン
コンプリートまで あと少しかな

[Pre-Chorus]
待ってる時間も 悪くはないさ
雲が流れる 形を変えて
コーヒー片手に 深呼吸

[Chorus]
投げて巻いて また投げて
単純なこと 繰り返すだけ
難しいこと 今は要らない
太陽の下 あくびをひとつ

[Guitar‐solo]

[Verse 3]
アップグレード 道具を磨き
まだ見ぬ海へ 足を伸ばそう
波のリズム 心に合わせて
のんびり行こう 焦りはないさ

[Bridge]
誰かの声も 届かない場所
自分らしさを 取り戻す場所
水しぶきが 教えてくれる
世界はもっと シンプルだって

[Chorus]
投げて巻いて また投げて
単純なこと 愛おしいだけ
難しいこと 全部忘れて
風に吹かれて 口笛吹こう

[Ending]
La la la...
釣れたかな?
また明日

まずは、「ACE-Step v1.5」で曲を作りました。
生成時間ですが、「RTX-5070 ti」の環境でモデルを読み込む時間を入れて32秒程度です。
2回目は26秒程度だったので、実質な生成時間はこのぐらいですね。

実際に出来た曲はこちらになります。聞いてみてください。

audio-thumbnail
ACE Step01
0:00
/120

ACE-Step v1.52曲目です

audio-thumbnail
ACE Step02
0:00
/120

全般的に悪くないですが、歌詞を間違えていたり、読み飛ばしたり2回歌ったり等、問題も多いです。
漢字の読み間違えとかは、平仮名に修正して対応できますが、歌詞を飛ばしたり繰り返し歌う部分は、何回も生成して良いのを使うしか無いかもしれません。

今度はsuno4.5で作成しました

audio-thumbnail
suno 4.5 Cast n Chill 01
0:00
/194.879979

suno4.5で2曲目

audio-thumbnail
suno 4.5 Cast n Chill 02
0:00
/214.359979

できあがりは、かなりの違いがありつつも、どちらもいい感じに出来ています。
曲の厚みや、サビの盛り上がりは結構差があるように感じます。
カントリーの曲調に問題もあるかと思いますが、「suno4.5」相当は盛りすぎかなって気がします。
ただ無料と有料の差がある上に、商用利用に関しての規約の違い(「ACE-Step v1.5」の方がゆるいので、使い勝手がいい)等もあるので、単純に曲以外の部分を考えると、「ACE-Step v1.5」の使い勝手の良さが際立っています。

「suno 5.0」でも作成してみたので、聞いてみてください。

audio-thumbnail
suno 5.0 Cast n Chill 01
0:00
/173.919979
audio-thumbnail
suno 5.0 Cast n Chill 02
0:00
/220.919979

流石に「suno 5.0」は、ワンランク上って感じで、特にサビの盛り上げ方にはかなりの差があるように思います。
ボーカルに感情的な表現すら入っているので、「ACE-Step v1.5」はその辺が一歩及んでいないかなと感じます。

ここで、「ACE-Step」と「suno」の違いを比較してみます。
これは、比較記事にありがちなスペック比較なので、読み飛ばしてもいいですw

以下、「ACE-Step 1.5(Hugging Face: ACE-Step/Ace-Step1.5)」と「Suno」を、指定の順番で比較表にまとめます。評価が主観になりやすい「音質/クオリティ」は、**“傾向”**として整理します。


1) 音質や曲そのもののクオリティ(傾向)

観点 ACE-Step 1.5(ローカル/OSSモデル) Suno(商用サービス)
“完成品っぽさ”(構成の自然さ・展開) モデル単体というより使い方(プロンプト/設定/後処理)に依存しやすい。うまくハマると強いが、調整が必要になりがち。 最初から完成曲として聴ける体験に寄せたチューニング/プロダクト設計になりやすい(UI含めた総合品質)。※ただし内部仕様は非公開。
プロンプト追従 「50+言語での厳密な追従」をうたっている(主張ベース)。 良くも悪くも“サービス側の最適化”が効く(意図しない補完も起き得る)。仕様詳細は規約/ヘルプ範囲での公開に依存。
生成の安定性(当たり外れ) 実行環境(VRAM/推論設定/モデル派生)でブレやすい。 サービス側で環境が固定されるため、体感は安定しやすい(ただし混雑や仕様変更の影響は受ける)。
ボーカル/歌詞込みの“商品感” 可能だが、モデル選択やワークフロー次第(モデルカード上は歌詞等も扱う設計を示唆)。 もともと“歌もの生成”の体験が強みとして語られやすい(機能や権利はプラン/規約依存)。
{w=20}

2) 技術的な差

観点 ACE-Step 1.5 Suno
公開性 モデル/実装が公開(Hugging Face配布+GitHubでプロジェクト公開)。 クローズド(モデル詳細・学習データ・推論パイプラインは原則非公開)。
アーキテクチャ概要 モデルカードでは、**LM(プランナー)+Diffusion Transformer(DiT)**のハイブリッド、CoTで青写真生成などを説明。 公開情報は限定的(UI/提供機能中心)。詳細技術は利用規約・ヘルプの範囲に留まる。
速度/ローカル実行 消費者向けGPUでも動く、VRAM 4GB未満をうたう。高速生成も主張。 ローカル動作ではなくクラウド生成が基本。ユーザー側はスペック要件が軽い。
編集・派生機能 モデルカード上、cover / repaint / vocal-to-BGM等“編集系”も統合をうたう(実際の体験は実装/デモ依存)。 サービスとしての編集/拡張機能は提供され得るが、範囲はプロダクト仕様依存。
組み込み(自動化) OSSなので自前パイプライン/社内ツールに組み込みやすい(ただし運用は自分で面倒を見る)。 連携はサービス仕様次第(UI中心だと自動化は制約されやすい)。

3) 商用の可否などライセンス関連(重要)

観点 ACE-Step 1.5 Suno
ライセンスの明示 Hugging Face上で License: MIT と明記。 利用は Terms(利用規約) に従う。
商用利用の扱い(生成物) モデルカードで「生成音楽を商用利用できる」趣旨を強く主張(“Commercial-Ready”)。 さらにMITは一般に商用利用を許容する“緩い”OSSライセンス。 Sunoのヘルプでは、サブスク加入中の生成曲に商用利用権が付与される旨が説明されている(プラン条件に依存)。
学習データの説明(権利リスク認識) 「ライセンスされた音源・ロイヤリティフリー/パブリックドメイン・合成データ」等、法的にコンプライアンスしたデータをうたう。 学習データの詳細は通常非公開。利用者は規約に基づく利用が中心。
実務上の注意点 “MIT=何でも安心”ではなく、商用リリース前に(1)モデル/コードのMIT条文、(2)配布物に必要な著作権表示、(3)生成物の類似性チェック(既存曲に似すぎないか)などは別途推奨。 無料枠/有料枠で商用可否が変わるタイプの設計になり得るので、公開・販売・配信前に「あなたのプランでの権利」を規約/ヘルプで確認が必須。

どっちを選ぶべきか(結論だけ)

  • 商用を“規約上シンプルに”進めたい/すぐ曲がほしい:Suno(ただしプラン条件の確認が前提)
  • ローカル運用・組み込み・コスト最適化・透明性(MIT/OSS)を重視:ACE-Step 1.5

と言う訳で、聞き比べてみると、結構違いが分かるかと思います。
性能は多少落ちても、無料な事を考えると「ACE-Step v1.5」は十分有効かと思います。

Read more

ある人から、MarkdownのテキストをPDFにしてくれる何かが欲しいと言われたので、Claude Codeで作る事にした

ある人から、MarkdownのテキストをPDFにしてくれる何かが欲しいと言われたので、Claude Codeで作る事にした

実際、AIはMarkdownで解答を返してくる事が多く、普通に使っているだけでも、Markdown形式のテキストが手軽に表示したり、PDFに変換できると便利だと思うので、ブラウザで手軽に使える物を作りました。 作成後WEB上にアップしたのが以下のURLになります。 https://test.aisgm.me/test_prog/app/md2pdf/ VS Codeのプラグイン入れれば、同じ事は出来ますし、他にも同じようなアプリを作っている人がいるので、それを使うのも手なんですが、最近は怪しいサイトも多いですし、広告が大量に出るものも多いです。 更に、プラグインがウィルスに汚染されているケースなんかもニュースになっているので、セキュリティー的に使った事が無いものを人に勧めるのも怖いです。 そんな訳で、手軽に使えてインストール等の面倒な準備が必要無いってなると、WEBアプリでアクセスすれば使えて、ローカルで処理させるのが良さそうです。 配布やインストールの手間も必要無く、使いたい時にネットに繋がって、ブラウザさえあれば動くので一番使い勝手がいいですよね。 ってな訳で、Claude

画像フォーマットに関する記事を見て色々と深掘りしてみた

画像フォーマットに関する記事を見て色々と深掘りしてみた

画像フォーマットの正体とWebPの「予測マジック」を理解する 次世代画像フォーマットAVIFを触ってみた 割と最近の画像圧縮フォーマットについてです。 「webp」は比較的見るようになったフォーマットですが、従来は画像のサイズが小さいのはJPGで、透明色が使えて画質を維持するのがPNGって感じで、使い分けられていると思います。 しかし、JPGは古いフォーマットで圧縮アルゴリズムも古い上に、透明色が使えないなど改良の余地が多々あるので、「JPEG 2000」というフォーマットも作成されました。 「JPEG 2000」は技術的には従来のJPEGを大幅に上回る優秀なフォーマットにもかかわらず、処理負荷の高さや互換性の問題から一般消費者向けには普及しませんでした。 今となっては、それ程負荷は高くないのですが、開発された当時(2000年代前半)のPCのスペックを考えると厳しかったと思われます。 2001年のPCスペックを調べてみました。 Intel Pentium III 256MBから512MBのRAM 20GBから80GB Windows 98やWindows 2000が主流 この

suno5.5の実力を過去バージョンと比較(比較曲多めでお送りします)

suno5.5の実力を過去バージョンと比較(比較曲多めでお送りします)

suno5.5を使ってみましたが、なんか音の厚みが増して日本語の再現度も上がって、歌唱クオリティが一ランク上がったように感じるほどです。 とりあえずバージョンの歴史から V2 (2023年秋):  最大生成時間は1分20秒でした V3 (2024年春):  生成時間が2分に更新されました V3.5 (2024年夏): 曲の構造が改善され、初回生成の最大時間が4分に、延長                       (Extend)は1回につき最大2分まで可能になりました V4 (2024年11月): ボーカル品質が向上し、初回生成の最大時間は4分です。また、「Extend(延長)」「Cover(カバー)」「Persona(ペルソナ)」機能が追加されました V4.5 (2025年5月): 初回生成の最大時間が8分に延長され、プロンプトへの忠実度やスタイルのマッシュアップ機能が向上しました V4.5+ (2025年7月): 「Add Vocals(ボーカル追加)」や「Add Instrumental(インスト追加)」などの制作ツールが更新されました V5 (2025年9月):  オーディ

「NANObanana」があれば、LINEスタンプいらなくね?

「NANObanana」があれば、LINEスタンプいらなくね?

LINEスタンプはすぐに返せて便利なんですが、返したいスタンプを探すのが結構手間になってきています。 スタンプをそれ程沢山持っている訳じゃないんですが、30弱程度あります。 それだけでも、確かこんなのあったなとか、軽い感じのお礼スタンプどれがいいかなとか、選ぶのに時間がかかると、手軽に返せるスタンプの意味がありません。 そこで「NANObanana」です。画像に日本語も入れてもらえるので、スタンプが必要な時に、その場にあったスタンプを作ってしまえばいい!! と言う事で、やってみました。 スタンプのプロンプトは、うまい人がいると思うので、そこを突き詰めたい人はその手の記事を参考にしてください。 今回は、お手軽にその場でスタンプを作って、友人とかに利用するってお話です。 とは言え、イメージ通りの結果は欲しいので、何を注意すればそれっぽく作れるのかは少し実験してみたいと思います。 まずはAIに素直に聞いてみる。AIの事はAIに聞くのが一番です。 次の事に注意しろと教えてもらえます。 キャラクター設定: どのキャラクターを使いたいかを明確に指定します。 セリフや感情表現: どのようなセ