購入したミニPC「GMKtec」の「EVO-X1」で「AMUSE」画像生成AI動かしてみた！

AIに関しては色々と動かしてみたのですが、長くなりそうなので、それぞれ別記事で書いていきます。

今回入れたツールは以下の３つ
・LM STDIO
・AMUSE
・Pinokio

画像生成の「AMUSE」をチラ見せしていたので、ちゃんとどんな感じか紹介していきます。

「AMUSE」はAMDが開発を支援しているので、AMDのCPUやGPUに対応しています。
今回一番ミニPCの性能を生かせるアプリでもあります。

なので「AMUSE」は、画像生成以外に、動画の生成まで、モデル複数簡単に使えるように用意されているので、AMDのGPUを持っている人はお勧めできるアプリです。

画像の生成は３種類の速度重視からクオリティー重視までがある事を前回軽く紹介しました。
それ以外に、自分で大雑把な絵で配置を指定するモードや、既にあるイメージを別のスタイルに変換するなど、色々なモードやモデルを利用できます。

今回は、こちらのチャイナドレスの女性の画像を「angel style」で変換をかけてみます。

結果がこちら

どの辺がangel style なのかは、人による所だとは思いますが、全体的に白くなって、清楚な感じが多分AIの解釈なんだと思います。
分かりやすく羽とか付けてこなかっただけ良かったと思うべきでしょうかｗ

１種類だと分かりにくいので、次は「cyberpunk style」で作成してみます。
それっぽく解釈されるのか、楽しみですね。

結果がこちら

いい感じでサイバーパンクになっています。
かなりいい感じで変換されるので、自分の写真とかで遊んでも面白いかもしれません。

プロンプトは「A mountain landscape」です。日本語だと「山の風景」ってかんじですね。
次が作成済みの画像になります

綺麗に描いた絵に合うように生成されます

完成はこんな感じになります。
それっぽくなってます。プロンプトで、人物やポーズを文章で書いても、微妙な位置や配置は絵で描いた方が、正確ですし書きやすいですよね。
この辺をハイブリットで使えるのは便利ですよね

ここまでは、イージーモードでしたが、ここからエキスパートモードを少し紹介します。
エキスパートモードは結構できる事が多いので、詳しくは次回になりそう

パーとモードに入ると次のような画面になります。

ここに次にようなプロンプトを入れて、更にAIモデルは「Flux.1Schnell」を読み込みます

使用したプロンプト

A black wooden dining table with a glossy finish is placed in the centre of the room. On the table are a white cup with a red pattern, a white saucer, a small blue-green cup and a decorative plate with a floral pattern. To the left of the table is a high-backed dark wooden chair with a curved backrest. A similar chair is partially visible to the right. The wall behind the table has white and grey vertical stripes, with a tall dark wooden vase with dried flowers in the left background. The floor is dark brown tiles.

日本語訳

光沢仕上げの黒い木製のダイニングテーブルが部屋の中央に置かれている。テーブルの上には、赤い模様の入った白いカップ、白いソーサー、青緑色の小さなカップ、花模様の飾り皿が置かれている。テーブルの左側には、背もたれがカーブした背の高い濃い木製の椅子がある。右側にも同じような椅子が部分的に見える。テーブルの背後の壁には白とグレーの縦縞があり、左の背景にはドライフラワーが入った背の高い濃い木の花瓶がある。床はこげ茶色のタイル。

設定はデフォルトでそのままで作成してみます。
おしゃれな部屋が出来上がれば、プロンプト通りです。

いい感じになっています。
机の映り込みまで表現されていて凄いですよね。

今度はモデルを「Real Cartoon 3D」に切り替えて生成します。

このクオリティーで１０秒かからずに生成できます。
このモデルも部屋とかだといいですね。
カジュアルな感じになるので、目的に応じて使うモデルを切り替えるとよいかもです。

イージーモードは、AIモデル指定出来ませんが、エキスパートモードだと、用意されている中からの選択ですが、色々選べるのでエキスパートな感じですｗ

イージーモードは、AIモデル指定出来ませんが、エキスパートモードだと、用意されている中からの選択ですが、色々選べるのでエキスパートな感じですｗ
で、モデルマネージャーというのがあり（画像のような感じ）、ここで良さそうなモデルをダウンロードして利用できます。

最後にこんなモデルもあるって例を出しつつ、終わりたいと思います。
プロンプトは同じです。

次回「AMUSE」をもう少し続けます。

オープンソースの２画面ファイラーで、欲しい機能をAIで追加してみた

「shellfiler」というオープンソースの２画面ファイラーを愛用していました。シェアウェアの頃から、お金を払わせてもらって使わせてもらっていたのですが、ある時からオープンソースになりました。個人的に欲しい機能で、ネットワーク上のNASや他のPCの共有フォルダに手軽にアクセスする機能です。具体的には「\PC名\共有フォルダ名」みたいなアクセスなんですが、これに対応していません。ネットワークドライブ（ネットワーク上のアクセス先をドライブとしてWindowsに）を使えばアクセスは出来るので、全く使えない訳ではないのですが、共有フォイルだが多いとそれ全部にネットワークドライブを割り当てる訳にもいかず、最近は使わなくなっていました。他のツールも試しましたが、「shellfiler」の使い勝手が結構良くて、個人的には変えたくいない！そこで、せっかくオープンソースなんだから、AIで必要な部分を修正できれば、良さそう！「shellfiler」のGITのURLです。使用するAIは今回Geminiさんで、新しくなった「AntiGravity」でやってみます。作業ファルダを指

自動的にカラオケっぽい歌詞を付けるアプリを作ってみた結果

sunoで作成した曲に歌詞を付けるのが手間だなぁ～と常々思っていたのですが、これを効率化したいと言う事で、今回は歌を解析して歌詞を指定すればタイミングを合わせて配置してくれるアプリを作ってみました。せっかく作ったので少し解説と、どんな物が作れるのか、デモの動画と少し解説をしますが、アプリそのものはライセンスの問題で非公開です。実際にこのツールで作成した動画を３本ほど紹介スペルトナエルサイコロ勇者と魔王の城アトミックピクニック見てもらうと分かりますが、これが思ったより簡単に作れるようになったので、現在のように短期間で作れるようになりました。歌詞入りで曲を公開する場合に、歌詞を入れる作業に時間がかかる割に、イマイチなできになる事も多いので、クオリティーが安定したのも良かったです。では、次の動画で実際にツールを使って曲に歌詞を入れていきます。使用しているＡＩのライセンス問題で、手軽に公開できないのと、需要がそれ程無さそうなので、こんなアプリで動画作成してますよって紹介になります。音源さえ用意すれば、カラオケも作れちゃいます。カラオケの例です。

ある人から、MarkdownのテキストをPDFにしてくれる何かが欲しいと言われたので、Claude Codeで作る事にした

実際、AIはMarkdownで解答を返してくる事が多く、普通に使っているだけでも、Markdown形式のテキストが手軽に表示したり、PDFに変換できると便利だと思うので、ブラウザで手軽に使える物を作りました。作成後WEB上にアップしたのが以下のURLになります。 https://test.aisgm.me/test_prog/app/md2pdf/ VS Codeのプラグイン入れれば、同じ事は出来ますし、他にも同じようなアプリを作っている人がいるので、それを使うのも手なんですが、最近は怪しいサイトも多いですし、広告が大量に出るものも多いです。更に、プラグインがウィルスに汚染されているケースなんかもニュースになっているので、セキュリティー的に使った事が無いものを人に勧めるのも怖いです。そんな訳で、手軽に使えてインストール等の面倒な準備が必要無いってなると、WEBアプリでアクセスすれば使えて、ローカルで処理させるのが良さそうです。配布やインストールの手間も必要無く、使いたい時にネットに繋がって、ブラウザさえあれば動くので一番使い勝手がいいですよね。ってな訳で、Claude

画像フォーマットに関する記事を見て色々と深掘りしてみた

画像フォーマットの正体とWebPの「予測マジック」を理解する次世代画像フォーマットAVIFを触ってみた割と最近の画像圧縮フォーマットについてです。「webp」は比較的見るようになったフォーマットですが、従来は画像のサイズが小さいのはJPGで、透明色が使えて画質を維持するのがPNGって感じで、使い分けられていると思います。しかし、JPGは古いフォーマットで圧縮アルゴリズムも古い上に、透明色が使えないなど改良の余地が多々あるので、「JPEG 2000」というフォーマットも作成されました。「JPEG 2000」は技術的には従来のJPEGを大幅に上回る優秀なフォーマットにもかかわらず、処理負荷の高さや互換性の問題から一般消費者向けには普及しませんでした。今となっては、それ程負荷は高くないのですが、開発された当時（2000年代前半）のPCのスペックを考えると厳しかったと思われます。 2001年のPCスペックを調べてみました。 Intel Pentium III 256MBから512MBのRAM 20GBから80GB Windows 98やWindows 2000が主流この

AIに関しては色々と動かしてみたのですが、長くなりそうなので、それぞれ別記事で書いていきます。

画像生成の「AMUSE」をチラ見せしていたので、ちゃんとどんな感じか紹介していきます。

今回は、こちらのチャイナドレスの女性の画像を「angel style」で変換をかけてみます。

結果がこちら

１種類だと分かりにくいので、次は「cyberpunk style」で作成してみます。それっぽく解釈されるのか、楽しみですね。

結果がこちら

いい感じでサイバーパンクになっています。かなりいい感じで変換されるので、自分の写真とかで遊んでも面白いかもしれません。

綺麗に描いた絵に合うように生成されます

使用したプロンプト

日本語訳

今度はモデルを「Real Cartoon 3D」に切り替えて生成します。

最後にこんなモデルもあるって例を出しつつ、終わりたいと思います。プロンプトは同じです。

次回「AMUSE」をもう少し続けます。

Read more

オープンソースの２画面ファイラーで、欲しい機能をAIで追加してみた

自動的にカラオケっぽい歌詞を付けるアプリを作ってみた結果

ある人から、MarkdownのテキストをPDFにしてくれる何かが欲しいと言われたので、Claude Codeで作る事にした

画像フォーマットに関する記事を見て色々と深掘りしてみた

１種類だと分かりにくいので、次は「cyberpunk style」で作成してみます。
それっぽく解釈されるのか、楽しみですね。

いい感じでサイバーパンクになっています。
かなりいい感じで変換されるので、自分の写真とかで遊んでも面白いかもしれません。

最後にこんなモデルもあるって例を出しつつ、終わりたいと思います。
プロンプトは同じです。