AI関連

あけおめ動画を色々なAI動画生成で作ってみた

最近色々と忙しくて更新をサボっていましたが、久々の更新が「あけおめ」ですみません。
生成サービスで違いがあるので、その辺も含めてお楽しみください。

まずプロンプトですが、

全体的に日本のアニメ調にしてください。
日本の正月の挨拶用動画を作成してください。
画面上部に日本語で「あけましておめでとう」と毛筆で書いているように表示してください
画面下部にデフォルメしたリスを表示して正面へ向かって手を振ってください
画面左右に門松を配置してください
画面の左下に「AIS」と表記してください
正月の背景は日本っぽい風景にしてください

といったプロンプトで作成していきます。

日本語の文字生成はsoraしか再現できないので、

画面上部に日本語で「あけましておめでとう」と毛筆で書いているように表示してください

このプロンプトを削除して、文字以外で生成します。
必要なら後から動画編集ソフトで、文字を入れればいいかなと思います。

それでは、各動画生成AIで作成した動画を見ていきます。

最初はwan2.2で作成
ローカルで作成できるため、制限が無いので、数を作成しています。
一挙に３本

0:00

/0:06

0:00

/0:06

0:00

/0:06

全般的に微妙にリスが可愛くないのと、雪がなぜか降っています。演出的には綺麗ですけどね・・・。
最初の動画は建物はそれっぽいですが、背景の壺みたいなのが、あまり日本で見ない形状なので、少し不自然です。
２つ目の動画は、背景の提灯がどこだ？って感じですが、畳は長方形で問題無さそうです。
３つ目の動画は、なぜかプロンプトで指示していない女の子が二人描かれていたり、リスを「Squirrel」と英語で書いてあって、それも指示していない内容ですが、ちょっと面白い感じになりました。

次はOpenAIの「Sora」です

かなり動画の表現力が高い事で有名なので、今回の本命ですね
音も同時に付けてくれるので、凄いですよね。いい感じにできあがっています

0:00

/0:04

何本か生成したので、失敗はこちら

0:00

/0:04

リスが可愛くないのと、音楽が日本っぽく無いとか、文字が残念ですが、背景は日本ぽさが出ているので、頑張ろうとした形跡はありますｗ

次はGoogleの「VEO」です

これも音も自動で付けてくれる優れものです。
しかしながら、GoogleのAI有料プランPROだと、１日３本程度で制限に引っかかります。
お試しならいいですが、常用するにはプランを上げないと厳しいですよね。
では、「VEO」で作成した動画です（バージョンはVeo3.1）

0:00

/0:08

「あけましておめでとう」の文字が残念な感じになっています。
しかし、それ以外はかなりできがいいです。
特に背景や正月っぽい豪華さを出している所が、よくできていると思いました。
そこで、日本語抜きで作成すれば、いい感じになりそうなので、「あけましておめでとう」を消してみようと思いましたが、うまく行きませんでした。
その結果がこちら

0:00

/0:08

なぜかよく分からないテキストが右上に入り込んでいます。
AISも２重に入って、謎な状況になっていますが、それ以外は凄くいい感じになっています。
音の方もできが良く、「あけましておめでとうございます」って声が入っていて、楽器も和楽器な感じで出来が良いです。
背景も鶴が飛んでいたり富士山もいい感じで描かれていて、かなり惜しいです。

他の失敗も含めて３本作成すると上限になったので、次の日になってから、やり直した結果がこちらです。

0:00

/0:08

結構いい感じになっています。
音声で「あけましておでとうございます」も入っていて、リスもいい感じで可愛いし、変な文字も入っていません。
個人的には一番、出来がいいかもと思ってます。

別のローカル動画生成AIで、他にも試してみます。

日本語での指示には問題がありそうなので、英語に翻訳してからプロンプトを投げます

Please give the entire video a Japanese anime style.
Please create a video for New Year's greetings in Japan.
Display a stylised squirrel at the bottom of the screen, facing forward and waving its hand.
Place kadomatsu decorations on the left and right sides of the screen.
Display "AIS" in the bottom left corner of the screen.
Please use a Japanese-style landscape for the New Year's background.

「Hunyuan Video 1.5」を使用して、テキストから動画を生成します。

0:00

/0:05

アニメっぽさはいい感じですが、リスは微妙な感じだったり、リスの胸に「AIS」が書かれているなど、なんか想像していた方向性とかなり違いますｗ

「Kandinsky 5.0 Video Lite」を使用してテキストから動画を生成

これは、ロシア発のオープンソース動画生成のAIです。
結果を見れば一目瞭然ですが、日本を描くのは得意ではない事がよく分かります。
学習データの問題なんだと思います。

0:00

/0:10

色々残念な上に、額縁みたいな物があるのも謎です。

せっかくなので、得意そうな映像を「Kandinsky 5.0 Video Lite」で作成してみます。

スポーツカーが、サーキットを凄い速度で走っています。
コースのカーブを綺麗に駆け抜けます。
カメラは車の後方、ドローンからの視点で迫力のある映像です

The sports car races around the circuit at incredible speed.
It takes the course's bends beautifully.
The camera captures the action from behind the car, offering dramatic footage from a drone's perspective.

上部の日本語を下部の英語に翻訳して、生成してみました。
自動車やサーキットなどのリアルな映像を生成した方が完成度は高そうです。

0:00

/0:05

スローな映像ですが、比較的いい感じになってます
最後に、それでも微妙なパターン

0:00

/0:10

なぜかサーキットで対向車がｗ
動画を延長したらどうなるのか・・・ちょっと気になります。

ってな訳で、以上です

オープンソースの２画面ファイラーで、欲しい機能をAIで追加してみた

「shellfiler」というオープンソースの２画面ファイラーを愛用していました。シェアウェアの頃から、お金を払わせてもらって使わせてもらっていたのですが、ある時からオープンソースになりました。個人的に欲しい機能で、ネットワーク上のNASや他のPCの共有フォルダに手軽にアクセスする機能です。具体的には「\PC名\共有フォルダ名」みたいなアクセスなんですが、これに対応していません。ネットワークドライブ（ネットワーク上のアクセス先をドライブとしてWindowsに）を使えばアクセスは出来るので、全く使えない訳ではないのですが、共有フォイルだが多いとそれ全部にネットワークドライブを割り当てる訳にもいかず、最近は使わなくなっていました。他のツールも試しましたが、「shellfiler」の使い勝手が結構良くて、個人的には変えたくいない！そこで、せっかくオープンソースなんだから、AIで必要な部分を修正できれば、良さそう！「shellfiler」のGITのURLです。使用するAIは今回Geminiさんで、新しくなった「AntiGravity」でやってみます。作業ファルダを指

自動的にカラオケっぽい歌詞を付けるアプリを作ってみた結果

sunoで作成した曲に歌詞を付けるのが手間だなぁ～と常々思っていたのですが、これを効率化したいと言う事で、今回は歌を解析して歌詞を指定すればタイミングを合わせて配置してくれるアプリを作ってみました。せっかく作ったので少し解説と、どんな物が作れるのか、デモの動画と少し解説をしますが、アプリそのものはライセンスの問題で非公開です。実際にこのツールで作成した動画を３本ほど紹介スペルトナエルサイコロ勇者と魔王の城アトミックピクニック見てもらうと分かりますが、これが思ったより簡単に作れるようになったので、現在のように短期間で作れるようになりました。歌詞入りで曲を公開する場合に、歌詞を入れる作業に時間がかかる割に、イマイチなできになる事も多いので、クオリティーが安定したのも良かったです。では、次の動画で実際にツールを使って曲に歌詞を入れていきます。使用しているＡＩのライセンス問題で、手軽に公開できないのと、需要がそれ程無さそうなので、こんなアプリで動画作成してますよって紹介になります。音源さえ用意すれば、カラオケも作れちゃいます。カラオケの例です。

ある人から、MarkdownのテキストをPDFにしてくれる何かが欲しいと言われたので、Claude Codeで作る事にした

実際、AIはMarkdownで解答を返してくる事が多く、普通に使っているだけでも、Markdown形式のテキストが手軽に表示したり、PDFに変換できると便利だと思うので、ブラウザで手軽に使える物を作りました。作成後WEB上にアップしたのが以下のURLになります。 https://test.aisgm.me/test_prog/app/md2pdf/ VS Codeのプラグイン入れれば、同じ事は出来ますし、他にも同じようなアプリを作っている人がいるので、それを使うのも手なんですが、最近は怪しいサイトも多いですし、広告が大量に出るものも多いです。更に、プラグインがウィルスに汚染されているケースなんかもニュースになっているので、セキュリティー的に使った事が無いものを人に勧めるのも怖いです。そんな訳で、手軽に使えてインストール等の面倒な準備が必要無いってなると、WEBアプリでアクセスすれば使えて、ローカルで処理させるのが良さそうです。配布やインストールの手間も必要無く、使いたい時にネットに繋がって、ブラウザさえあれば動くので一番使い勝手がいいですよね。ってな訳で、Claude

画像フォーマットに関する記事を見て色々と深掘りしてみた

画像フォーマットの正体とWebPの「予測マジック」を理解する次世代画像フォーマットAVIFを触ってみた割と最近の画像圧縮フォーマットについてです。「webp」は比較的見るようになったフォーマットですが、従来は画像のサイズが小さいのはJPGで、透明色が使えて画質を維持するのがPNGって感じで、使い分けられていると思います。しかし、JPGは古いフォーマットで圧縮アルゴリズムも古い上に、透明色が使えないなど改良の余地が多々あるので、「JPEG 2000」というフォーマットも作成されました。「JPEG 2000」は技術的には従来のJPEGを大幅に上回る優秀なフォーマットにもかかわらず、処理負荷の高さや互換性の問題から一般消費者向けには普及しませんでした。今となっては、それ程負荷は高くないのですが、開発された当時（2000年代前半）のPCのスペックを考えると厳しかったと思われます。 2001年のPCスペックを調べてみました。 Intel Pentium III 256MBから512MBのRAM 20GBから80GB Windows 98やWindows 2000が主流この

次はOpenAIの「Sora」です

何本か生成したので、失敗はこちら

次はGoogleの「VEO」です

別のローカル動画生成AIで、他にも試してみます。

「Hunyuan Video 1.5」を使用して、テキストから動画を生成します。

「Kandinsky 5.0 Video Lite」を使用してテキストから動画を生成

せっかくなので、得意そうな映像を「Kandinsky 5.0 Video Lite」で作成してみます。

Read more

オープンソースの２画面ファイラーで、欲しい機能をAIで追加してみた

自動的にカラオケっぽい歌詞を付けるアプリを作ってみた結果

ある人から、MarkdownのテキストをPDFにしてくれる何かが欲しいと言われたので、Claude Codeで作る事にした

画像フォーマットに関する記事を見て色々と深掘りしてみた