Googleの「Nano Banana」を使ってみる(「QWEN Image edit」と比較可能なテストしました)

Share
Googleの「Nano Banana」を使ってみる(「QWEN Image edit」と比較可能なテストしました)

前回「QWEN Image edit」で行ったような事を、こちらでもやってみます。


前提条件として「QWEN Image edit」はローカルで動かしているので、制限がほぼ無い事と、試行回数を増やしていい結果が出るまでpromptの調節を繰り返しやすいですが、前回は実験だったので、基本的に最初に出してきた物を使っています

今回はGoogleのサービスで、更に無料プランで使用させてもらっているので、有料にした場合結果が違う事もあるかもしれません。
その辺はご了承ください。(AIサービスは基本的に有料プラン優遇です)

それでは実験していきます。
「QWEN Image edit」で使用したお姉さんを使います。

この画像をアップロードして、プロンプトで変更していきます。

まずは、背景を変えていきます。

以下プロンプト

背景を大都市のビルの屋上にして、ホワイトボードを消してください。
空に大きく雲で"AIS blog"と書いてください。

女性には手を加えずに、背景を変更します。

Geminiの返答

はい、承知いたしました。背景を大都市のビルの屋上にして、ホワイトボードを消し、空に雲で「AIS blog」と書いた画像はこちらです。

以下が結果です

完全に場所を変えて、こちらは意味をもう少しくみ取って、雲で文字を書いてくれました。
こちらの方が正確というか、思っていたイメージに近いです。

今度は、女性の着せ替えをやってみます。

以下がプロンプトです。

女性の洋服をカジュアルなTシャツとホットパンツに替えてください

Geminiの場合変更した画像を更に変更する指示になります。

Geminiの返答

承知いたしました。女性の洋服をカジュアルなTシャツとホットパンツに替えます。

背景等のベースは同じで、服だけ変更してみます。

以下が結果です

「QWEN Image edit」と違って、ブーツ以外は全部着せ替えています。
服装に関しては曖昧な指示だと余計に違いが出る部分かもしれません。

次は服をチャイナドレスにしてみます。

以下がプロンプトです。

女性の洋服をチャイナドレスに替えてください

Geminiの返答

承知いたしました。女性の洋服をチャイナドレスに替えます。

以下が結果です

いい感じのチャイナドレスになっています。
「QWEN Image edit」よりも知っているチャイナドレスって感じでイメージ通りです。

次は服を「QWEN Image edit」の時と同じように色と模様を変えます。

以下がプロンプトです。

女性の洋服を黒いチャイナドレスに替えて、チャイナドレスに金の竜の絵を入れてください

Geminiの返答

承知いたしました。女性の洋服を黒いチャイナドレスに替え、金の竜の絵を入れます。

以下が結果です

「QWEN Image edit」と比較すると、ドラゴン感は減っていますが、服の模様としての完成度は高いですね。
現実にありそうなクオリティーです。

次は場所をスカイツリーに変えてみます。

以下がプロンプトです。

背景をスカイツリーの展望室から大都市のビルが見えて、空に大きく雲で"AIS blog"と書いてください。
女性の洋服をゴスロリに替えてください

Geminiの返答

承知いたしました。背景をスカイツリーの展望室から大都市のビルが見える景色に変更し、空に大きく雲で「AIS blog」と書きます。また、女性の洋服をゴスロリに替えます。

以下が結果です

いまいち、スカイツリーから見える風景が再現されていない感じです。
服はまあまあで、頭はそのままですね。

服を着物に替えてみます

以下がプロンプトです。

女性の洋服を着物に替えてください

Geminiの返答

承知いたしました。女性の洋服を着物に変更します。

以下が結果です

着物はいい感じです。
「QWEN Image edit」は、簡易的というか、お土産の着物みたいですよね。
それに対してGeminiはちゃんとした振り袖になっている感じです。
靴も、ちゃんと履き物になっていて、「QWEN Image edit」はブーツのままですが、この辺はちゃんと指示すればいいかもしれません。
次は宇宙ステーションです。

宇宙ステーションから地球を見ている風景にします。

以下がプロンプトです。

背景を宇宙ステージョン内にして、宇宙ステーションから地球が見える窓の横に女性は立っている。
地球に大きく"AIS blog"と書いてください。
女性の洋服を宇宙服に替えてください

Geminiの返答

承知いたしました。背景を宇宙ステーション内に変更し、女性の洋服を宇宙服に、地球に「AIS blog」と書いた画像はこちらです。

以下が結果です

宇宙ステーションからの眺めっぽ所はいい感じですが、宇宙服はがっつり着込んじゃってますw
顔は再現されているか顔部分を拡大

なんか別人っぽいですね。西洋人ぽく見えます。
残念感が凄いですw

ヘルメットを取って顔を出してもらいます。

以下がプロンプトです。

ヘルメットは外して女性が見えるようにしてください。

Geminiの返答

承知いたしました。ヘルメットを外し、女性が見えるように変更します。

以下が結果です

わ~~~

なんかホラーになってるw
前回の画像に女性の情報が無いからかもしれません。
元の画像からやり直そうと思います。

最初の画像からの変更に戻したいので、指示したいと思います。

次のピラミッドに進めます

最初の画像から変更を加えてください
背景をピラミッドの前にして、ホワイトボードを消してください。
ピラミッドの中腹に大きく"AIS blog"と書いてください。
女性の洋服をミニスカートに替えてください

Geminiの返答

I can create images about lots of things but not that. Can I try a different one for you?

どうやらこのような指定はダメなようです。

新規に画像をアップロードして仕切り直します。

仕切り直すので宇宙服リベンジします

以下がプロンプトです。

背景を宇宙ステージョン内にして、宇宙ステーションから地球が見える窓の横に女性は立っている。
地球に大きく"AIS blog"と書いてください。
女性の洋服を宇宙服に替えてください

Geminiの返答

承知いたしました。背景を宇宙ステーション内に変更し、宇宙ステーションから地球が見える窓の横に女性が立ち、地球に大きく「AIS blog」と書きます。女性の洋服は宇宙服に替えます。

以下が結果です

相変わらず、ヘルメットをかぶっていますが、今度は大丈夫そうです。
一応拡大してみます

大丈夫そうですね。
しかし、ヘルメットを取ってみたいので、初期画像から作成してみます。

ヘルメットを外した宇宙服姿を指示します

以下がプロンプトです。

背景を宇宙ステージョン内にして、宇宙ステーションから地球が見える窓の横に女性は立っている。
地球に大きく"AIS blog"と書いてください。
女性の洋服を宇宙服に替えてください。ヘルメットは外した状態で女性の顔は見えている状態にしてください。

Geminiの返答

承知いたしました。背景を宇宙ステーション内に変更し、宇宙ステーションから地球が見える窓の横に女性が立ち、地球に大きく「AIS blog」と書きます。女性の洋服は宇宙服に替え、ヘルメットは外した状態で女性の顔が見えている状態にします。

意図は理解してもらえているようです。

以下が結果です

意地でもヘルメットは取ってくれないですね。
顔は指示通り見えていますし、髪の毛はヘルメット貫通して出てますw

背景を大きく変えてエジプトにします。

今回も初期の画像を指定してやり直しています。

以下がプロンプトです。

背景をピラミッドの前にして、ホワイトボードを消してください。
ピラミッドの中腹に大きく"AIS blog"と書いてください。
女性の洋服をミニスカートに替えてください

Geminiの返答

承知いたしました。背景をピラミッドの前に変更し、ホワイトボードを消します。ピラミッドの中腹に大きく「AIS blog」と書き、女性の洋服をミニスカートに替えます。

以下が結果です

ミニスカートと指定しましたが、スカートですら無い感じです。
Tシャツ&ホットパンツの時と同じ感じになりました。

また、服装だけ変更していきます。

以下がプロンプトです。

背景をエジプトのピラミッドにして、ホワイトボードを消してください。
ピラミッドの中腹に大きく" AIS blog"と書いてください。
女性の洋服をセイラー服に替えてください

Geminiの返答

承知いたしました。背景をエジプトのピラミッドにし、ホワイトボードを消します。ピラミッドの中腹に大きく「AIS blog」と書き、女性の洋服をセーラー服に替えます。

以下が結果です

ポニーテールに変わっちゃっていますが、靴も変更されていて、概ねいい感じですね。

今度は全般的に変えていきます

以下がプロンプトです。

コンサートホールで舞台にはグランドピアノがあります。
女性はそのピアノを弾いています。
女性の洋服は、美しい赤いドレスを着ています。

Geminiの返答

承知いたしました。コンサートホールで舞台にグランドピアノがあり、女性がそのピアノを弾いています。女性の洋服は美しい赤いドレスです。

以下が結果です

これだけ大幅に変更してもいい感じにしてくれますね。
「QWEN Image edit」と比較しても、かなり強力です。
ちなみにこの性能で、無料でも1日100まで使用できるので、誰にでも便利なツールではないでしょうか?
「QWEN Image edit」は、ローカル生成なので、環境があれば、時間と電気料金が許す限り、生成しまくれる所が優位な所ですかね。

最後に宇宙服リベンジ

宇宙服で色々問題があったので、もう一度挑戦します。
以下がプロンプトです。

背景を宇宙ステージョン内にして、宇宙ステーションから地球が見える窓の横に女性は立っている。
地球に大きく"AIS blog"と書いてください。
女性の洋服を宇宙服に替えてください。ヘルメットは外して女性の顔は見えている状態にしてください。

Geminiの返答

承知いたしました。背景を宇宙ステーション内に変更し、宇宙ステーションから地球が見える窓の横に女性が立ち、地球に大きく「AIS blog」と書きます。女性の洋服は宇宙服に替え、ヘルメットは外した状態で女性の顔が見えている状態にします。

以下が結果です

いい感じになりました。
うまくいかなくても、プロンプトを調節したり、同じプロンプトで何度も出し直す事で、こんな感じで思った通りの物ができたりするので、AIは結局数撃つのが重要かなと思ったりします。

「QWEN Image edit」の記事と比較すると面白いと思います

ではでは

Read more

自動的にカラオケっぽい歌詞を付けるアプリを作ってみた結果

自動的にカラオケっぽい歌詞を付けるアプリを作ってみた結果

sunoで作成した曲に歌詞を付けるのが手間だなぁ~と常々思っていたのですが、これを効率化したいと言う事で、今回は歌を解析して歌詞を指定すればタイミングを合わせて配置してくれるアプリを作ってみました。 せっかく作ったので少し解説と、どんな物が作れるのか、デモの動画と少し解説をしますが、アプリそのものはライセンスの問題で非公開です。 実際にこのツールで作成した動画を3本ほど紹介 スペルトナエル サイコロ勇者と魔王の城 アトミックピクニック 見てもらうと分かりますが、これが思ったより簡単に作れるようになったので、現在のように短期間で作れるようになりました。 歌詞入りで曲を公開する場合に、歌詞を入れる作業に時間がかかる割に、イマイチなできになる事も多いので、クオリティーが安定したのも良かったです。 では、次の動画で実際にツールを使って曲に歌詞を入れていきます。 使用しているAIのライセンス問題で、手軽に公開できないのと、需要がそれ程無さそうなので、こんなアプリで動画作成してますよって紹介になります。 音源さえ用意すれば、カラオケも作れちゃいます。 カラオケの例です。

ある人から、MarkdownのテキストをPDFにしてくれる何かが欲しいと言われたので、Claude Codeで作る事にした

ある人から、MarkdownのテキストをPDFにしてくれる何かが欲しいと言われたので、Claude Codeで作る事にした

実際、AIはMarkdownで解答を返してくる事が多く、普通に使っているだけでも、Markdown形式のテキストが手軽に表示したり、PDFに変換できると便利だと思うので、ブラウザで手軽に使える物を作りました。 作成後WEB上にアップしたのが以下のURLになります。 https://test.aisgm.me/test_prog/app/md2pdf/ VS Codeのプラグイン入れれば、同じ事は出来ますし、他にも同じようなアプリを作っている人がいるので、それを使うのも手なんですが、最近は怪しいサイトも多いですし、広告が大量に出るものも多いです。 更に、プラグインがウィルスに汚染されているケースなんかもニュースになっているので、セキュリティー的に使った事が無いものを人に勧めるのも怖いです。 そんな訳で、手軽に使えてインストール等の面倒な準備が必要無いってなると、WEBアプリでアクセスすれば使えて、ローカルで処理させるのが良さそうです。 配布やインストールの手間も必要無く、使いたい時にネットに繋がって、ブラウザさえあれば動くので一番使い勝手がいいですよね。 ってな訳で、Claude

画像フォーマットに関する記事を見て色々と深掘りしてみた

画像フォーマットに関する記事を見て色々と深掘りしてみた

画像フォーマットの正体とWebPの「予測マジック」を理解する 次世代画像フォーマットAVIFを触ってみた 割と最近の画像圧縮フォーマットについてです。 「webp」は比較的見るようになったフォーマットですが、従来は画像のサイズが小さいのはJPGで、透明色が使えて画質を維持するのがPNGって感じで、使い分けられていると思います。 しかし、JPGは古いフォーマットで圧縮アルゴリズムも古い上に、透明色が使えないなど改良の余地が多々あるので、「JPEG 2000」というフォーマットも作成されました。 「JPEG 2000」は技術的には従来のJPEGを大幅に上回る優秀なフォーマットにもかかわらず、処理負荷の高さや互換性の問題から一般消費者向けには普及しませんでした。 今となっては、それ程負荷は高くないのですが、開発された当時(2000年代前半)のPCのスペックを考えると厳しかったと思われます。 2001年のPCスペックを調べてみました。 Intel Pentium III 256MBから512MBのRAM 20GBから80GB Windows 98やWindows 2000が主流 この

suno5.5の実力を過去バージョンと比較(比較曲多めでお送りします)

suno5.5の実力を過去バージョンと比較(比較曲多めでお送りします)

suno5.5を使ってみましたが、なんか音の厚みが増して日本語の再現度も上がって、歌唱クオリティが一ランク上がったように感じるほどです。 とりあえずバージョンの歴史から V2 (2023年秋):  最大生成時間は1分20秒でした V3 (2024年春):  生成時間が2分に更新されました V3.5 (2024年夏): 曲の構造が改善され、初回生成の最大時間が4分に、延長                       (Extend)は1回につき最大2分まで可能になりました V4 (2024年11月): ボーカル品質が向上し、初回生成の最大時間は4分です。また、「Extend(延長)」「Cover(カバー)」「Persona(ペルソナ)」機能が追加されました V4.5 (2025年5月): 初回生成の最大時間が8分に延長され、プロンプトへの忠実度やスタイルのマッシュアップ機能が向上しました V4.5+ (2025年7月): 「Add Vocals(ボーカル追加)」や「Add Instrumental(インスト追加)」などの制作ツールが更新されました V5 (2025年9月):  オーディ