AI関連

購入したミニPC「GMKtec」の「EVO-X1」が来たので動かしてみた！

ミニPC「GMKtec」の「EVO-X1」については、購入時に書いた前回の記事を参照してください。

実機の写真を

「GMKtec」の「EVO-X1」という機種で、めっちゃ小さいですね。正直持って歩けるぐらい小さいです。
比較用にエネループの単三電池を置きました。

アダプターは普通ですがｗ

サイズ感は単三電池のエネループを一緒に撮ったので見てもらえると、なんとなくわかると思います。
高さがちょっとありますが、かなり小さいです。
さらに、縦置きするための台もついていて、通気性を確保しつつ置き方を変えられるようになっています。

とりあえず、開けてみます。
冷却も考えられていて、小さいながら使い勝手は良さそうです。

ＳＳＤは１ＴＢモデルなので、追加でＳＳＤを入れます。（ブルーの奴です）
AI関連の処理とか、色々使う予定なので、ストレージを追加します。

実際に起動します。
今回、仮置きなのでディスプレイに接続せずに、先日購入した「USB KVM」を使います。
詳しくはこちらを参照してください。

良い感じでPCから操作できます。

セットアップをしていきます。
裏で重い作業をやらせる事が目的なので、

セットアップが終わったら色々動かしてみます。
ちなみに、ベンチマークとかは得意な方がやっているかと思うので、AI性能とかそれ系を動かした時にどんなものかを、軽く検証したいともいます。

一応「CINEBENCH R23」で性能だけ軽く計測しておきます。

AIに関しては色々と動かしてみたのですが、長くなりそうなので、軽く紹介して次の記事で詳しくやります。

今回入れたツールは以下の３つ
・LM STDIO
・AMUSE
・Pinokio

それぞれ軽く解説

「LM STDIO」
ローカルAIを動かす有名な奴。
フェイスブックの「LAMA」や少し前に話題になった中国産の「DEEPSEEK」、Googleの「gemma」など、オープンになったLLMをローカルで動かす事ができます。
仕組みが分からなくても、インストールして、ポチポチやれば動くし、PCのスペック（主にメモリー量）がある程度あればノートPCでも動かす事ができるので、ローカルでAI動かしてみたい人にはお勧めです。

「AMUSE」
AMDが開発に協力しているローカルで画像生成できるアプリです。
AMDサポートなだけあって、AMDのGPUに対応していて、AMDのGPUを持っていてれば高速に画像を生成できます。
今回のミニPCはAMDのGPU搭載CPUなので、今回はこれを使って画像生成を実験します。
AMUSE3.1.0が公開されて、性能が上がっているらしいので楽しみです。

「Pinokio」
色々な生成AIを、全部お膳立てしてくれるので、簡単に利用できるシステムです。
利用可能なものは、画像、動画、音楽、音声、と多岐にわたり、それぞれオープンな生成AIのシステムをインストールして利用する仕組みになります。
環境設定からインストールまで、全自動で初心者に優しいアプリです。
NVIDAのGPUがないと動かない物もあり（説明に書いてあります）、説明など英語でしか書かれていないので、その辺はちょっと入りにくいかもしれません。

結果が分かりやすい、「AMUSE」を少し載せて、詳しい解説や状況は次回やります。

「AMUSE」は、使用できるAIモデルが３種類あって、「fast」「balance」「quality」を選択できます。
簡単に「軽い」「普通」「重い」とか、松竹梅みたいな感じです。
それぞれ使用するグラフィックメモリーが違うので、単純に時間がかかるだけでは無く、グラフィックカードによっては、動かないケースもあります。

プロンプトは以下になります。

プロンプト

A beautiful woman in a gothic maid's outfit with a deep red slit is operating a laptop in the wilderness while listening to music on headphones with her blue hair fluttering.

日本語訳

深紅のスリットが入ったゴシック調のメイド服を着た美女が、青い髪をなびかせながらヘッドフォンで音楽を聴き、荒野でノートパソコンを操作している。

同じプロンプトでそれぞれ４枚ずつ画像を生成して、どんな感じになるのかと、４枚の生成にかかった時間を比較してみたいと思います。

「fast」速度は速いがクオリティーが低い。
（必要メモリー8GB）１３．５秒

見ての通り目がおかしかったり、全体的にケバい感じになって、ちょっと残念な感じですよね。
風景とか、絵によっては良い物もできるかもしれないですが、人物は厳しい感じがします。

「balance」　速度遅い。クオリティーそこそこ。
　（必要メモリー16GB）１６分５３秒

だいぶそれっぽくなって、良くなっていると思います。
ただ、手がちょっとおかしいですよね。
メモリーの使用量は中ぐらいで、速度も結構遅いです。
「fast」よりは良くなっていますが、時間の割にって感じもします。

「quality」　速度は遅いがクオリティーは高い　
（必要メモリー32GB）８分５秒

今回このミニPCはグラフィックメモリーを最大32GBにできるのがポイントで、快適ではないですが、これも問題なく動かせます。

ちゃんと、髪をなびかせという表現も再現されていて、クオリティーの高さが分かります。
人物も人間ぽ差が出ているし、背景いい感じになっていますね。
時間も短いので、グラフィックメモリーを確保できれば、圧倒的にこちらの方が良いですね。

大雑把にこんな感じです。
もう少し詳しくは、また記事を書くので少々お待ちください。

自動的にカラオケっぽい歌詞を付けるアプリを作ってみた結果

sunoで作成した曲に歌詞を付けるのが手間だなぁ～と常々思っていたのですが、これを効率化したいと言う事で、今回は歌を解析して歌詞を指定すればタイミングを合わせて配置してくれるアプリを作ってみました。せっかく作ったので少し解説と、どんな物が作れるのか、デモの動画と少し解説をしますが、アプリそのものはライセンスの問題で非公開です。実際にこのツールで作成した動画を３本ほど紹介スペルトナエルサイコロ勇者と魔王の城アトミックピクニック見てもらうと分かりますが、これが思ったより簡単に作れるようになったので、現在のように短期間で作れるようになりました。歌詞入りで曲を公開する場合に、歌詞を入れる作業に時間がかかる割に、イマイチなできになる事も多いので、クオリティーが安定したのも良かったです。では、次の動画で実際にツールを使って曲に歌詞を入れていきます。使用しているＡＩのライセンス問題で、手軽に公開できないのと、需要がそれ程無さそうなので、こんなアプリで動画作成してますよって紹介になります。音源さえ用意すれば、カラオケも作れちゃいます。カラオケの例です。

ある人から、MarkdownのテキストをPDFにしてくれる何かが欲しいと言われたので、Claude Codeで作る事にした

実際、AIはMarkdownで解答を返してくる事が多く、普通に使っているだけでも、Markdown形式のテキストが手軽に表示したり、PDFに変換できると便利だと思うので、ブラウザで手軽に使える物を作りました。作成後WEB上にアップしたのが以下のURLになります。 https://test.aisgm.me/test_prog/app/md2pdf/ VS Codeのプラグイン入れれば、同じ事は出来ますし、他にも同じようなアプリを作っている人がいるので、それを使うのも手なんですが、最近は怪しいサイトも多いですし、広告が大量に出るものも多いです。更に、プラグインがウィルスに汚染されているケースなんかもニュースになっているので、セキュリティー的に使った事が無いものを人に勧めるのも怖いです。そんな訳で、手軽に使えてインストール等の面倒な準備が必要無いってなると、WEBアプリでアクセスすれば使えて、ローカルで処理させるのが良さそうです。配布やインストールの手間も必要無く、使いたい時にネットに繋がって、ブラウザさえあれば動くので一番使い勝手がいいですよね。ってな訳で、Claude

画像フォーマットに関する記事を見て色々と深掘りしてみた

画像フォーマットの正体とWebPの「予測マジック」を理解する次世代画像フォーマットAVIFを触ってみた割と最近の画像圧縮フォーマットについてです。「webp」は比較的見るようになったフォーマットですが、従来は画像のサイズが小さいのはJPGで、透明色が使えて画質を維持するのがPNGって感じで、使い分けられていると思います。しかし、JPGは古いフォーマットで圧縮アルゴリズムも古い上に、透明色が使えないなど改良の余地が多々あるので、「JPEG 2000」というフォーマットも作成されました。「JPEG 2000」は技術的には従来のJPEGを大幅に上回る優秀なフォーマットにもかかわらず、処理負荷の高さや互換性の問題から一般消費者向けには普及しませんでした。今となっては、それ程負荷は高くないのですが、開発された当時（2000年代前半）のPCのスペックを考えると厳しかったと思われます。 2001年のPCスペックを調べてみました。 Intel Pentium III 256MBから512MBのRAM 20GBから80GB Windows 98やWindows 2000が主流この

suno5.5の実力を過去バージョンと比較（比較曲多めでお送りします）

suno5.5を使ってみましたが、なんか音の厚みが増して日本語の再現度も上がって、歌唱クオリティが一ランク上がったように感じるほどです。とりあえずバージョンの歴史から V2 (2023年秋):　　最大生成時間は1分20秒でした V3 (2024年春):　　生成時間が2分に更新されました V3.5 (2024年夏):　曲の構造が改善され、初回生成の最大時間が4分に、延長　　　　　　　　　　　　　　　　　　　　　　（Extend）は1回につき最大2分まで可能になりました V4 (2024年11月):　ボーカル品質が向上し、初回生成の最大時間は4分です。また、「Extend（延長）」「Cover（カバー）」「Persona（ペルソナ）」機能が追加されました V4.5 (2025年5月):　初回生成の最大時間が8分に延長され、プロンプトへの忠実度やスタイルのマッシュアップ機能が向上しました V4.5+ (2025年7月):　「Add Vocals（ボーカル追加）」や「Add Instrumental（インスト追加）」などの制作ツールが更新されました V5 (2025年9月):　　オーディ