Qwen Image editを使ってみた

Share
Qwen Image editを使ってみた

「Qwen Image edit」は、既にある画像をプロンプトで加工する機能です。
基本的に元の画像を維持した状態で、プロンプトで指定した部分だけを変える事ができます。

ちなみに元々の「Qwen Image」には、テキストから画像生成するAIです。

過去の記事で紹介しているので参考にしてください。

では、実際に加工してみます。
「Qwen Image」で作成した画像を用意しました。

この画像を、加工していきます。

まずは、背景を変えていきます。

以下プロンプト

背景を大都市のビルの屋上にして、ホワイトボードを消してください。
空に大きく雲で"AIS blog"と書いてください。

完全に場所を変えてみます。
雲に文字を書いてみます。

以下が結果です

今度は、女性の着せ替えをやってみます。

以下がプロンプトです。

背景を大都市のビルの屋上にして、ホワイトボードを消してください。
空に大きく雲で"AIS blog"と書いてください。
女性の洋服をカジュアルなTシャツとホットパンツに替えてください

背景等のベースは同じで、服だけ変更してみます。

以下が結果です

比較的、想像通りですね。

もっと靴も合った感じにしたいとか、あればその辺はプロンプトに含めれば、かなり自由に変更できます。

この辺から、少しずつ要素を入れていきます。

更に服を変えます。

以下がプロンプトです。

背景を大都市のビルの屋上にして、ホワイトボードを消してください。
空に大きく雲で"AIS blog"と書いてください。
女性の洋服をチャイナドレスに替えてください

以下が結果です

何か思ったチャイナドレスと違います

この辺は、もう少し細かい描写で指定しないとうまくいかないかもですね。
ここでは、色を変えて、更に模様を入れてみます。

以下がプロンプトです

背景を大都市のビルの屋上にして、ホワイトボードを消してください。
空に大きく雲で"AIS blog"と書いてください。
女性の洋服を黒いチャイナドレスに替えて、チャイナドレスに金の竜の絵を入れてください

以下が結果です

チャイナドレスはいまいちですが、竜は綺麗に再現されています。

風景を更に変えて、更に服も変えてみます。

以下がプロンプトです

スカイツリーの展望室から大都市のビルが見えて、ホワイトボードを消してください。
空に大きく雲で"AIS blog"と書いてください。
女性の洋服をゴスロリに替えてください

以下が結果です

いい感じでスカイツリー感出てますね。東京タワーも見えるし。

雲で書くイメージでしたが、雲に書いた感じになってます。
もう少し細かく描写が必要っぽいですね。飛行機雲とか・・・
今回は、洋服を着物に替えてみます

以下がプロンプトです

スカイツリーの展望室から大都市のビルが見えて、ホワイトボードを消してください。
空に大きく雲で"AIS blog"と書いてください。
女性の洋服を着物に替えてください

以下が結果です

結構ちゃんと着物になってますね

色指定はしていないので、赤にしてくれていますが、これも指定すれば自由になると思います。
次は少し変えるだけだと、面白くないので宇宙にしてみます。

以下がプロンプトです

背景を宇宙ステージョン内にして、ホワイトボードを消してください。
宇宙ステーションから地球が見える窓の横に女性は立っている。地球に大きく"AIS blog"と書いてください。
女性の洋服を宇宙服に替えてください

以下が結果です

指定通りに地球が見える窓の横にいますね

結構いい感じになったのではないかと思います。

また更に違う場所にしてみたいと思います。

以下がプロンプトです

背景をピラミッドの前にして、ホワイトボードを消してください。
ピラミッドの中腹に大きく"AIS blog"と書いてください。
女性の洋服をミニスカートに替えてください

以下が結果です

なんかよく分からんミニチュアのピラミッドになりました

スタジオのセットみたいな感じです。
これじゃない感があるので、プロンプトを修正します。

以下がプロンプトです

背景をエジプトのクフ王のピラミッドにして、ホワイトボードを消してください。
ピラミッドの中腹に大きく"AIS blog"と書いてください。
女性の洋服をミニスカートに替えてください

ぐらい的な地名と、クフ王という具体名を入れてみました。

以下が結果です

なぜかツタンカーメンのプラミッドの上に出てきましたw

あと「AIS」が書けなくなってます。原因はよく分かりません。何度か試しましたが直りませんでした。

とりあえず、よく分かりませんが「クフ王」というキーワードが悪そうなので、消してみます。

以下がプロンプトです

背景をエジプトのピラミッドにして、ホワイトボードを消してください。
ピラミッドの中腹に大きく" AIS blog"と書いてください。
女性の洋服をセイラー服に替えてください

以下が結果です

ピラミッドは想定通りですが「AIS」はダメですね

セーラー服もそれっぽくなってますが、元に引っ張られて、スカートがゴシック調ですw

今度は最後に、場所もですが、違う事をさせてみたいと思います。

以下がプロンプトです

コンサートホールで舞台にはグランドピアノがあります。
女性はそのピアノを弾いています。
女性の洋服は、美しい赤いドレスを着ています。

以下が結果です

結構ちゃんとピアノを弾いている感じになっています。
コンサートホールもそれっぽいですし、自分の写真とか使えば、色々偽装できちゃいそうですね。

そんな訳で、色々な使い方ができそうです。
特に文字がちゃんと出せれば、ポスターみたいな物を軽く作れそうです。

あとは、写真加工も消したい物や、色変えたいが簡単にできるので、昔は写真加工=フォトショップだったのが、今ではAIでできますね。

ローカルで、使うにはある程度ハイスペックなゲーミングPCが必要ですが、クラウで上のサービスもあるので、それを使ってみるのもいいかもです。

しかし、このAIがApachelicenseで公開されているので、商用利用も自由にできてしまいます。
すごいですねw(最後の締めw)

Read more

自動的にカラオケっぽい歌詞を付けるアプリを作ってみた結果

自動的にカラオケっぽい歌詞を付けるアプリを作ってみた結果

sunoで作成した曲に歌詞を付けるのが手間だなぁ~と常々思っていたのですが、これを効率化したいと言う事で、今回は歌を解析して歌詞を指定すればタイミングを合わせて配置してくれるアプリを作ってみました。 せっかく作ったので少し解説と、どんな物が作れるのか、デモの動画と少し解説をしますが、アプリそのものはライセンスの問題で非公開です。 実際にこのツールで作成した動画を3本ほど紹介 スペルトナエル サイコロ勇者と魔王の城 アトミックピクニック 見てもらうと分かりますが、これが思ったより簡単に作れるようになったので、現在のように短期間で作れるようになりました。 歌詞入りで曲を公開する場合に、歌詞を入れる作業に時間がかかる割に、イマイチなできになる事も多いので、クオリティーが安定したのも良かったです。 では、次の動画で実際にツールを使って曲に歌詞を入れていきます。 使用しているAIのライセンス問題で、手軽に公開できないのと、需要がそれ程無さそうなので、こんなアプリで動画作成してますよって紹介になります。 音源さえ用意すれば、カラオケも作れちゃいます。 カラオケの例です。

ある人から、MarkdownのテキストをPDFにしてくれる何かが欲しいと言われたので、Claude Codeで作る事にした

ある人から、MarkdownのテキストをPDFにしてくれる何かが欲しいと言われたので、Claude Codeで作る事にした

実際、AIはMarkdownで解答を返してくる事が多く、普通に使っているだけでも、Markdown形式のテキストが手軽に表示したり、PDFに変換できると便利だと思うので、ブラウザで手軽に使える物を作りました。 作成後WEB上にアップしたのが以下のURLになります。 https://test.aisgm.me/test_prog/app/md2pdf/ VS Codeのプラグイン入れれば、同じ事は出来ますし、他にも同じようなアプリを作っている人がいるので、それを使うのも手なんですが、最近は怪しいサイトも多いですし、広告が大量に出るものも多いです。 更に、プラグインがウィルスに汚染されているケースなんかもニュースになっているので、セキュリティー的に使った事が無いものを人に勧めるのも怖いです。 そんな訳で、手軽に使えてインストール等の面倒な準備が必要無いってなると、WEBアプリでアクセスすれば使えて、ローカルで処理させるのが良さそうです。 配布やインストールの手間も必要無く、使いたい時にネットに繋がって、ブラウザさえあれば動くので一番使い勝手がいいですよね。 ってな訳で、Claude

画像フォーマットに関する記事を見て色々と深掘りしてみた

画像フォーマットに関する記事を見て色々と深掘りしてみた

画像フォーマットの正体とWebPの「予測マジック」を理解する 次世代画像フォーマットAVIFを触ってみた 割と最近の画像圧縮フォーマットについてです。 「webp」は比較的見るようになったフォーマットですが、従来は画像のサイズが小さいのはJPGで、透明色が使えて画質を維持するのがPNGって感じで、使い分けられていると思います。 しかし、JPGは古いフォーマットで圧縮アルゴリズムも古い上に、透明色が使えないなど改良の余地が多々あるので、「JPEG 2000」というフォーマットも作成されました。 「JPEG 2000」は技術的には従来のJPEGを大幅に上回る優秀なフォーマットにもかかわらず、処理負荷の高さや互換性の問題から一般消費者向けには普及しませんでした。 今となっては、それ程負荷は高くないのですが、開発された当時(2000年代前半)のPCのスペックを考えると厳しかったと思われます。 2001年のPCスペックを調べてみました。 Intel Pentium III 256MBから512MBのRAM 20GBから80GB Windows 98やWindows 2000が主流 この

suno5.5の実力を過去バージョンと比較(比較曲多めでお送りします)

suno5.5の実力を過去バージョンと比較(比較曲多めでお送りします)

suno5.5を使ってみましたが、なんか音の厚みが増して日本語の再現度も上がって、歌唱クオリティが一ランク上がったように感じるほどです。 とりあえずバージョンの歴史から V2 (2023年秋):  最大生成時間は1分20秒でした V3 (2024年春):  生成時間が2分に更新されました V3.5 (2024年夏): 曲の構造が改善され、初回生成の最大時間が4分に、延長                       (Extend)は1回につき最大2分まで可能になりました V4 (2024年11月): ボーカル品質が向上し、初回生成の最大時間は4分です。また、「Extend(延長)」「Cover(カバー)」「Persona(ペルソナ)」機能が追加されました V4.5 (2025年5月): 初回生成の最大時間が8分に延長され、プロンプトへの忠実度やスタイルのマッシュアップ機能が向上しました V4.5+ (2025年7月): 「Add Vocals(ボーカル追加)」や「Add Instrumental(インスト追加)」などの制作ツールが更新されました V5 (2025年9月):  オーディ