文字に強い多言語AI画像生成「Qwen Image」を使ってみる

文字に強い多言語AI画像生成「Qwen Image」を使ってみる

サポート言語:日本語があるようなので、日本語の能力を試してみます。
多言語テキストレンダリング能力:英語、中国語、韓国語、日本語など複数の言語を含む画像を正確に生成でき、テキストは明確で読みやすく、画像スタイルと調和します
そもそも中国初の生成AIなので、漢字には強うそうです。

初期設定のプロンプトで、看板の文字を日本語を入れて出力すると、こんな感じ

この記事のタイトルも「Qwen Image」で作成しました。

プロンプトも

Illustration in cartoon style.
Beautiful Asian woman in gothic maid's outfit, wearing black high-heeled boots.
Long, flowing black hair with twin-tails. Make-up is thin and natural.
The woman is in the middle of a wheat field and the words "Qwen Image" appear in the wheat field.
The camera is pulled back so that the text is in the middle of the camera. The woman appears small and waves her hand.
The words "AIS blog" are written in small letters at the bottom.

で作成しています。正直思ったようには出ていません。
この辺は私の表現力が無いので、もう少試行錯誤が必要です。

今度は、日本語がどんな感じか検証していきます。

とりあえず平仮名の「つみげー」を書いてみます。

プロンプトは

Beautiful Asian woman in gothic maid's outfit, black high-heeled boots.
She has long, flowing black hair with twin-tails. Her make-up is thin and natural and she is smiling.
There is a large whiteboard next to the woman with the word "つみげー" written in a beautiful design all over the whiteboard.
The word "AIS" is written in small letters at the bottom of the whiteboard.

日本語も問題無く、比較的思った感じになっていると思います。

ホワイトボードに書かれている感じがなんかいい感じです。
平仮名も問題無く、それっぽくなっています。
文字を凝りたければ、色々文字の装飾を指示する感じで行けると思います。

今度はもう少し難しい日本語を書かせてみます。

平仮名と漢字を混ぜた4文字熟語で、「一日一善」と「猫に小判」を書かせてみます。

プロンプトは

Beautiful Asian woman in gothic maid's outfit, black high-heeled boots.
Long, flowing black hair in twin-tails. Make-up is thin and natural.
There is a large whiteboard next to the woman with the words "一日一善 猫に小判" written all over the whiteboard in a beautiful design with a red border around the words.

ホワイトボードに書かせるのが、比較的思い通りになりやすいのと、同じプロンプトを使い回して、文字だけ変えますw
そうすると、こんな感じになります。

なんか、小判の「判」の字がうまくいきません。
何度かやってみましたが、ダメでした。特定の文字が苦手なのか、プロンプトの工夫でなんとかなるのかは、も少し実験してみないと分からないですが、日本語も行けそうな感じです。

そんな訳で、今度は難しい漢字、「薔薇」を書かせてみます。
プロンプトは、ホワイトボードの文字を「薔薇」書き換えただけの同じ物です。

薔薇は漢字なので、難しくてもいい感じです。
しかも、薔薇のデザインまでしてあります。このデザインは指示していなくて(表示文字以外のプロンプトは同じ)、このようになりました。
この辺は凄いですね~

やっぱり、日本語っぽい難しさで今度はやってみます。
文字は以下の2種類
「トンネルを抜けると豚がいた!トンネルだけにね!」
「ブハハハ!!人がゴミのようだ!」
平仮名片仮名漢字を感嘆符を織り交ぜてみました。
その結果がこちらです。複数回実行したので、画像をまとめました。

なんか色々と惜しいですね。
「トンテル」とか「トンチ-ル」になっていたり、豚が勝手に猪になっています。
内部的に文字を処理している部分で「豚=猪」ってなっているのかもしれません。
ちょっと、AIの動きが見えて面白いですね。
もう片方は、「ブハハハ!!」の最後の片仮名の「ハ」が「は」に変換されていたり、「ゴミの」が「ゴミシ」になっていたり、なかなか難しいですね。
意味が認識できてしまうと、変換されてしまうのかもしれませんが、よく分からないが結論でしょうかw

最後に今までは、英語のプロンプトでやっていましたが、日本語を認識できているなら、日本語のプロンプトを入れてみたらどうなるかやってみました。

プロンプトは

ゴシックなメイド服を着た美しいアジア人女性、黒のハイヒールブーツを履いている。
流れるような黒のロングヘアーでツインテール。メイクは薄くナチュラル。
女性の横に大きなホワイトボードがあり、ホワイトボードに"(^_^)v"とホワイトボード一杯に書かれ、文字の周りに赤く縁取りされて綺麗なデザインで書いてある

今回は顔文字をやってみました。

なんか、めっちゃ意味なくて関係無い文字列が出てきました。
たまたまではなく、4回やって4回共です。
謎ですが少し面白いですね。

0:00
/0:05

Read more

比較的最近の気になったニュース11月26日

比較的最近の気になったニュース11月26日

ここ最近色々追いつかなくて、更新が滞っております・・・・ 書きかけの記事も何個かあって・・・ぐぬぬ そんな訳で、最近気になったニュースです。 エレコム、よくやった! ひと目で「仕様」がわかるUSB-Cケーブル登場 USBケーブルって凄く種類が多くて、規格を考えた奴土下座しろって言いたくなりますw データーの転送速度と、電気の流量の組み合わせで性能に差があり、100Wの電気が流せるのに、データの転送速度が「USB2.0」相当とか・・・ 「USB3.1 Gen1」は「USB2.0」の約10倍ぐらいの速度なので、差が激しいですよね。それが全く書かれていないし、分からないケーブルも沢山あるので書いてくれるとありがたいですね。 USB Cable Checker3 ちなみにこんな製品も出ていて、USBケーブルの性能をテストできます。 実は持っている上に、クラファンで購入したので、ブログに書こうと思っているので、その内書きます。 AIは著者が中国人であることが明らかになると途端に「反中」モードになることが判明:特にDeepSeekが顕著な傾向 面白い記事ですね。学習元の影響が大きい

ローカルで効果音が作成できるAI「MMAudio」を使ってみた(「Waves Place」と同じ効果音も作ってみました)

ローカルで効果音が作成できるAI「MMAudio」を使ってみた(「Waves Place」と同じ効果音も作ってみました)

MMAudio は、ビデオやテキストや画像の入力が与えられると、動画は同期されたオーディオ、画像はそれに合った音を生成します。 使用方法は Pinokio https://pinokio.co/ こちらのアプリからインストールして、「MMAudio」を使います。 インストール方法などは別記事を書きたいと思います。 比較対象として 時計のG-shockでおなじみのCASIO(カシオ)の新サービス!AIで効果音が生成できる「Waves Place」を試してみた の記事と比較しやすいように、同じようなプロンプトで作成します。 MMAudio は、ビデオやテキストや画像の入力が与えられると、動画は同期されたオーディオ、画像はそれに合った音を生成します。 使い方が非常に簡単な上に、動画に合わせて生成できるのも使い勝手がいいですね。カシオの「Waves Place」はテキストからだけだったので、こちらの方が少し上な感じがします。 実際にできるのは、 ・テキストから効果音生成 ・画像から効果の音生成 ・動画に合わせて効果音生成 前に「Waves Place」用に作成した動画が、丁

久々にオールインワンのコード生成「DeepSite」を使ってみた

久々にオールインワンのコード生成「DeepSite」を使ってみた

AIがWEBサイトをコーディングしてくれるサービスです。 DeepSite https://huggingface.co/spaces/enzostvs/deepsite 今回はテトリスっぽいゲームを作ってもらいました 今回の完成品 https://iaisd9-blocky-blitz-bonanza.static.hf.space/index.html では本題です。 アカウント(無料)を作ると、完成品をこのように公開できます。 ちなみに無料のユーザー登録すると、制作物を「DeepSite」で公開できる機能もあるので便利です(今回はその機能を使っています)。 複数のページが相互接続された複雑なウェブサイトを構築できます。 シンプルなランディングページから、動的なルーティングとナビゲーションを備えたフル機能のウェブアプリケーションまで、あらゆるものを構築できます。 と言う事で、WEBページであれば、かなりの物を作成できるサービスなので、当然ブラウザで遊べるゲームも作る事ができるので、テトリス的なゲームを作ってもらいました。 このサービスに限らず、既にWEB

時計のG-shockでおなじみのCASIO(カシオ)の新サービス!AIで効果音が生成できる「Waves Place」を試してみた

時計のG-shockでおなじみのCASIO(カシオ)の新サービス!AIで効果音が生成できる「Waves Place」を試してみた

前に気になっていたけど、試していなかったので、今回試してみました。 CASIOのアカウントを作成する必要があります。 ちょっとめんどいですが、無料で試せるのでとりあえず作成して試してみました。 一応プレスリリースです。 AIで効果音が生成できる「Waves Place」とライブ配信専用スケジューラー「Streamer Times」を正式リリース 実際どんな交換が生成できるのか、結構気にはなってます。 効果音系のアプリも実は持っているので、そんなのと比較もしてみたいですが、今回はこのサービスがどんな感じかを試します。 まず、料金プランのリンクです。最新情報はこちらを参照してください。 一応現在時点のプランです。 フリープランでは商用は不可ですね。 「starter」プラン以降で商用利用可能です。 フリーだと月20回までお試しできる感じです。 月千円(「starter」プラン)で800回って事なので、普通は「starter」プランで使い切れない気がします。 使うとすると、基本的に必要な時に有料プランして、終わったらフリーに戻すみたいな使い方になりそうなサービスです。 実際