文字に強い多言語AI画像生成「Qwen Image」を使ってみる

Share
文字に強い多言語AI画像生成「Qwen Image」を使ってみる

サポート言語:日本語があるようなので、日本語の能力を試してみます。
多言語テキストレンダリング能力:英語、中国語、韓国語、日本語など複数の言語を含む画像を正確に生成でき、テキストは明確で読みやすく、画像スタイルと調和します
そもそも中国初の生成AIなので、漢字には強うそうです。

初期設定のプロンプトで、看板の文字を日本語を入れて出力すると、こんな感じ

この記事のタイトルも「Qwen Image」で作成しました。

プロンプトも

Illustration in cartoon style.
Beautiful Asian woman in gothic maid's outfit, wearing black high-heeled boots.
Long, flowing black hair with twin-tails. Make-up is thin and natural.
The woman is in the middle of a wheat field and the words "Qwen Image" appear in the wheat field.
The camera is pulled back so that the text is in the middle of the camera. The woman appears small and waves her hand.
The words "AIS blog" are written in small letters at the bottom.

で作成しています。正直思ったようには出ていません。
この辺は私の表現力が無いので、もう少試行錯誤が必要です。

今度は、日本語がどんな感じか検証していきます。

とりあえず平仮名の「つみげー」を書いてみます。

プロンプトは

Beautiful Asian woman in gothic maid's outfit, black high-heeled boots.
She has long, flowing black hair with twin-tails. Her make-up is thin and natural and she is smiling.
There is a large whiteboard next to the woman with the word "つみげー" written in a beautiful design all over the whiteboard.
The word "AIS" is written in small letters at the bottom of the whiteboard.

日本語も問題無く、比較的思った感じになっていると思います。

ホワイトボードに書かれている感じがなんかいい感じです。
平仮名も問題無く、それっぽくなっています。
文字を凝りたければ、色々文字の装飾を指示する感じで行けると思います。

今度はもう少し難しい日本語を書かせてみます。

平仮名と漢字を混ぜた4文字熟語で、「一日一善」と「猫に小判」を書かせてみます。

プロンプトは

Beautiful Asian woman in gothic maid's outfit, black high-heeled boots.
Long, flowing black hair in twin-tails. Make-up is thin and natural.
There is a large whiteboard next to the woman with the words "一日一善 猫に小判" written all over the whiteboard in a beautiful design with a red border around the words.

ホワイトボードに書かせるのが、比較的思い通りになりやすいのと、同じプロンプトを使い回して、文字だけ変えますw
そうすると、こんな感じになります。

なんか、小判の「判」の字がうまくいきません。
何度かやってみましたが、ダメでした。特定の文字が苦手なのか、プロンプトの工夫でなんとかなるのかは、も少し実験してみないと分からないですが、日本語も行けそうな感じです。

そんな訳で、今度は難しい漢字、「薔薇」を書かせてみます。
プロンプトは、ホワイトボードの文字を「薔薇」書き換えただけの同じ物です。

薔薇は漢字なので、難しくてもいい感じです。
しかも、薔薇のデザインまでしてあります。このデザインは指示していなくて(表示文字以外のプロンプトは同じ)、このようになりました。
この辺は凄いですね~

やっぱり、日本語っぽい難しさで今度はやってみます。
文字は以下の2種類
「トンネルを抜けると豚がいた!トンネルだけにね!」
「ブハハハ!!人がゴミのようだ!」
平仮名片仮名漢字を感嘆符を織り交ぜてみました。
その結果がこちらです。複数回実行したので、画像をまとめました。

なんか色々と惜しいですね。
「トンテル」とか「トンチ-ル」になっていたり、豚が勝手に猪になっています。
内部的に文字を処理している部分で「豚=猪」ってなっているのかもしれません。
ちょっと、AIの動きが見えて面白いですね。
もう片方は、「ブハハハ!!」の最後の片仮名の「ハ」が「は」に変換されていたり、「ゴミの」が「ゴミシ」になっていたり、なかなか難しいですね。
意味が認識できてしまうと、変換されてしまうのかもしれませんが、よく分からないが結論でしょうかw

最後に今までは、英語のプロンプトでやっていましたが、日本語を認識できているなら、日本語のプロンプトを入れてみたらどうなるかやってみました。

プロンプトは

ゴシックなメイド服を着た美しいアジア人女性、黒のハイヒールブーツを履いている。
流れるような黒のロングヘアーでツインテール。メイクは薄くナチュラル。
女性の横に大きなホワイトボードがあり、ホワイトボードに"(^_^)v"とホワイトボード一杯に書かれ、文字の周りに赤く縁取りされて綺麗なデザインで書いてある

今回は顔文字をやってみました。

なんか、めっちゃ意味なくて関係無い文字列が出てきました。
たまたまではなく、4回やって4回共です。
謎ですが少し面白いですね。

0:00
/0:05

Read more

自動的にカラオケっぽい歌詞を付けるアプリを作ってみた結果

自動的にカラオケっぽい歌詞を付けるアプリを作ってみた結果

sunoで作成した曲に歌詞を付けるのが手間だなぁ~と常々思っていたのですが、これを効率化したいと言う事で、今回は歌を解析して歌詞を指定すればタイミングを合わせて配置してくれるアプリを作ってみました。 せっかく作ったので少し解説と、どんな物が作れるのか、デモの動画と少し解説をしますが、アプリそのものはライセンスの問題で非公開です。 実際にこのツールで作成した動画を3本ほど紹介 スペルトナエル サイコロ勇者と魔王の城 アトミックピクニック 見てもらうと分かりますが、これが思ったより簡単に作れるようになったので、現在のように短期間で作れるようになりました。 歌詞入りで曲を公開する場合に、歌詞を入れる作業に時間がかかる割に、イマイチなできになる事も多いので、クオリティーが安定したのも良かったです。 では、次の動画で実際にツールを使って曲に歌詞を入れていきます。 使用しているAIのライセンス問題で、手軽に公開できないのと、需要がそれ程無さそうなので、こんなアプリで動画作成してますよって紹介になります。 音源さえ用意すれば、カラオケも作れちゃいます。 カラオケの例です。

ある人から、MarkdownのテキストをPDFにしてくれる何かが欲しいと言われたので、Claude Codeで作る事にした

ある人から、MarkdownのテキストをPDFにしてくれる何かが欲しいと言われたので、Claude Codeで作る事にした

実際、AIはMarkdownで解答を返してくる事が多く、普通に使っているだけでも、Markdown形式のテキストが手軽に表示したり、PDFに変換できると便利だと思うので、ブラウザで手軽に使える物を作りました。 作成後WEB上にアップしたのが以下のURLになります。 https://test.aisgm.me/test_prog/app/md2pdf/ VS Codeのプラグイン入れれば、同じ事は出来ますし、他にも同じようなアプリを作っている人がいるので、それを使うのも手なんですが、最近は怪しいサイトも多いですし、広告が大量に出るものも多いです。 更に、プラグインがウィルスに汚染されているケースなんかもニュースになっているので、セキュリティー的に使った事が無いものを人に勧めるのも怖いです。 そんな訳で、手軽に使えてインストール等の面倒な準備が必要無いってなると、WEBアプリでアクセスすれば使えて、ローカルで処理させるのが良さそうです。 配布やインストールの手間も必要無く、使いたい時にネットに繋がって、ブラウザさえあれば動くので一番使い勝手がいいですよね。 ってな訳で、Claude

画像フォーマットに関する記事を見て色々と深掘りしてみた

画像フォーマットに関する記事を見て色々と深掘りしてみた

画像フォーマットの正体とWebPの「予測マジック」を理解する 次世代画像フォーマットAVIFを触ってみた 割と最近の画像圧縮フォーマットについてです。 「webp」は比較的見るようになったフォーマットですが、従来は画像のサイズが小さいのはJPGで、透明色が使えて画質を維持するのがPNGって感じで、使い分けられていると思います。 しかし、JPGは古いフォーマットで圧縮アルゴリズムも古い上に、透明色が使えないなど改良の余地が多々あるので、「JPEG 2000」というフォーマットも作成されました。 「JPEG 2000」は技術的には従来のJPEGを大幅に上回る優秀なフォーマットにもかかわらず、処理負荷の高さや互換性の問題から一般消費者向けには普及しませんでした。 今となっては、それ程負荷は高くないのですが、開発された当時(2000年代前半)のPCのスペックを考えると厳しかったと思われます。 2001年のPCスペックを調べてみました。 Intel Pentium III 256MBから512MBのRAM 20GBから80GB Windows 98やWindows 2000が主流 この

suno5.5の実力を過去バージョンと比較(比較曲多めでお送りします)

suno5.5の実力を過去バージョンと比較(比較曲多めでお送りします)

suno5.5を使ってみましたが、なんか音の厚みが増して日本語の再現度も上がって、歌唱クオリティが一ランク上がったように感じるほどです。 とりあえずバージョンの歴史から V2 (2023年秋):  最大生成時間は1分20秒でした V3 (2024年春):  生成時間が2分に更新されました V3.5 (2024年夏): 曲の構造が改善され、初回生成の最大時間が4分に、延長                       (Extend)は1回につき最大2分まで可能になりました V4 (2024年11月): ボーカル品質が向上し、初回生成の最大時間は4分です。また、「Extend(延長)」「Cover(カバー)」「Persona(ペルソナ)」機能が追加されました V4.5 (2025年5月): 初回生成の最大時間が8分に延長され、プロンプトへの忠実度やスタイルのマッシュアップ機能が向上しました V4.5+ (2025年7月): 「Add Vocals(ボーカル追加)」や「Add Instrumental(インスト追加)」などの制作ツールが更新されました V5 (2025年9月):  オーディ