AI関連

AI関連の内容全般

最近のAI関連記事10月10日

AI関連

最近のAI関連記事10月10日

社長が、自腹のRTX2080で国産生成AIをゼロから作ってみた話 https://note.com/rk611/n/n4dfffbbed408 実際に初歩的な事をやってみるは、経験として大きいかなと思いました。 ちょっと、やってみたくなりました。ハードルはちょっと高いですけど・・・ ″仕様駆動開発″というプロンプトを外付けするSpec Kit https://zenn.dev/watany/articles/46f7a8006eb054 kiroが人気になって、それ系の考え方で色々な物が作られていますが、これもその一つですね。 結局ちゃんと仕様書を作った方がいい物ができるのは自明なので、その仕組みをAI開発に持ち込むって事で、これもなるべくしてなった感はありますね。 複数 AI エージェントの MCP サーバーの設定を一元管理する「mmcp」の紹介 https://zenn.dev/kou_pg_0131/articles/mmcp-introduction いろいろやっていると、あると便利かもって感じだったのでメモ 【2025年版】テンセントAI「Hunyuan (混元)

HuMo AIを軽く使ってみた(ローカル動画生成AI)

AI関連

HuMo AIを軽く使ってみた(ローカル動画生成AI)

「HuMo AI」が「ComfyUI」から簡単に利用できるようになったので、軽く使って見ました。 この生成AIのポイントが何かというと、 テキスト + 画像 テキスト + オーディオ テキスト + 画像 + オーディオ このようにプロンプトに画像やオーディをを合わせた動画を作成できます。 テキスト+画像は、よくあるベース画像にテキストのプロンプトで動きやシーンを指示するものです。 オーディオはリップシンクしてくれるので(最近は当たり前のようにリンプシンクしてくれるので凄いですよね)、テキストの読み上げ音声に合わせて唇が動く動画や、歌に合わせて唇を動かすものから、曲に合わせてダンスする物も作成できる感じです いろいろ試してみましたが、私の環境「RTX5070 Ti」だと、メモリーの都合で最大6秒ぐらいまでしか生成できませんでした。 ですので、安定して生成できる5秒の動画を作成しています。 ただ、3秒までの生成が、動画のクオリティも上がる感じがするので、5秒まで生成できるが3秒までが推奨のなんだと思います。 では、実際にやってみました。 最初はテキストプロンプトと音楽のみです。

素人が作る実写っぽいミュージックビデオの作り方 その2

AI関連

素人が作る実写っぽいミュージックビデオの作り方 その2

今回のポイント ・歌の音ファイルの作り方 ・音ファイルを動画生成用に分割する ・リップシンクの動画ファイルの作り方 ・動画編集 前段は前回の記事を参照してください 音楽ファイルの作成 SUNO AIを使用して作成しています。 ベースの歌詞をAIに作成してもらって、手直しします。 どんな歌詞を作るか、概要をまとめてAIに渡します。 具体的なプロンプト 作りたい歌詞の内容や使用したい単語、曲のイメージを説明します。 それに、以下の分をコピペしてくっつけてAIに投げます。 歌詞は以下のタグ中から使用してください [Verse 1] [Verse 2] [Verse 3] [Verse 4] [Chorus] [Powerful‐Chorus] [Bridge] [Outro] [Lead-In] [Pre-Chorus] [Post-Chorus] [Ending] [rap] [hook] [drop] [hook] [Piano-solo] [Violin‐solo] [Drums‐solo] [Bass Drum‐solo] [Electr

素人が作る実写っぽいミュージックビデオの作り方 その1

AI関連

素人が作る実写っぽいミュージックビデオの作り方 その1

結構長くなりそうなので、何回かに分けて書きます。 続きは以下からどうぞ 素人が作る実写っぽいミュージックビデオの作り方 その2 今回作成したミュージックビデオです。 音楽以外はローカルで作成しました。 クラウドサービスは、結構サービス料金がかかりますが、GPUの購入価格と比較すると、どちらが高くなるかは、使用頻度なんかで変わるかと思います。 一点、ローカルで有利なので、試行錯誤を行いやすい事でしょうか? ローカル環境の紹介と大雑把な制作の流れ、クラウドとの比較なんかをしていきたいと思います。 今回の実際に作成した過程や、ローカル環境での細かい作り方等は次回行いたいと思います。 まず作成環境 動画生成 AMD Ryzen AI 9 HX 370 / Radeon 890M RTX5070TI 動画生成ツールは「ComfyUI」を使用 AIは「WAN2.2」と「humo」を使用しました。 音楽はSUNOを使用しました。 音楽作成はSUNO Ver4.5+が最新だったので、Ver4.5+です。 元々の女性はQwenImageを使用しました。 動画は比較的生成

Googleの「Nano Banana」を使ってみる(「QWEN Image edit」と比較可能なテストしました)

AI関連

Googleの「Nano Banana」を使ってみる(「QWEN Image edit」と比較可能なテストしました)

前回「QWEN Image edit」で行ったような事を、こちらでもやってみます。 前提条件として「QWEN Image edit」はローカルで動かしているので、制限がほぼ無い事と、試行回数を増やしていい結果が出るまでpromptの調節を繰り返しやすいですが、前回は実験だったので、基本的に最初に出してきた物を使っています 今回はGoogleのサービスで、更に無料プランで使用させてもらっているので、有料にした場合結果が違う事もあるかもしれません。 その辺はご了承ください。(AIサービスは基本的に有料プラン優遇です) それでは実験していきます。 「QWEN Image edit」で使用したお姉さんを使います。 この画像をアップロードして、プロンプトで変更していきます。 まずは、背景を変えていきます。 以下プロンプト 背景を大都市のビルの屋上にして、ホワイトボードを消してください。 空に大きく雲で"AIS blog"と書いてください。 女性には手を加えずに、背景を変更します。 Geminiの返答 はい、承知いたしました。背景を大都市のビルの屋上にして、ホ

Windows環境の「Claude Code」で「Serena」を使ってみる(主にエラー対応)

AI関連

Windows環境の「Claude Code」で「Serena」を使ってみる(主にエラー対応)

使い方や、コマンド例など情報はかなりあるのですが、その通りやっても動かない。 Windowsでと書いてあっても、PowerShellで動かしていなかったり、ちょっと環境が違う。 ちなみに、AIにも聞いてみましたが、いまいちピントを外した解答だったので(一応提示された対応は試してみました)、まあそうだよねって結果でした。 PowerShell限定で更に調べてみると、同じような苦労をしている人が世界に何人かはいて、解決方法も提示してくれています。 Claude Code + Serena for Windows 記事を参照しつつまとめると このコマンドを実行するとエラーになる claude mcp add serena -- uvx --from git+https://github.com/oraios/serena serena-mcp-server --context ide-assistant --project $(pwd) error: unknown option '--from' このコマンドを実行するととりあえず動く claude mcp

文字に強い多言語AI画像生成「Qwen Image」を使ってみる

AI関連

文字に強い多言語AI画像生成「Qwen Image」を使ってみる

サポート言語:日本語があるようなので、日本語の能力を試してみます。 多言語テキストレンダリング能力:英語、中国語、韓国語、日本語など複数の言語を含む画像を正確に生成でき、テキストは明確で読みやすく、画像スタイルと調和します そもそも中国初の生成AIなので、漢字には強うそうです。 初期設定のプロンプトで、看板の文字を日本語を入れて出力すると、こんな感じ この記事のタイトルも「Qwen Image」で作成しました。 プロンプトも Illustration in cartoon style. Beautiful Asian woman in gothic maid's outfit, wearing black high-heeled boots. Long, flowing black hair with twin-tails. Make-up is thin and natural. The woman

久々に発表されたマイクロソフトの新機能「Copilot 3D」を使ってみる

AI関連

久々に発表されたマイクロソフトの新機能「Copilot 3D」を使ってみる

記事 マイクロソフト、「Copilot 3D」を提供--画像1枚から手軽に3Dモデルを作成 AIって各社がしのぎを削っていて、ニュースが毎日のように出てくるのですが、早くからAIに取り組んでいるマイクロソフトのニュースはそれ程多くなかった印象です。 そんなマイクロソフトの新機能という事で、ちょっと期待しちゃいますね。(細かい更新は色々行われているみたいですけどね) そんな訳で、ちょっとやってみました。 サインインが必要なようです。 今回はマイクロソフトアカウントを使用しました。 公式で示されている用途は「ゲーム、アニメーション、3D 印刷、デザイン、VR/AR、デジタル コンテンツ、アート プロジェクト」と書かれているので、ゲームへの利用などもOKぽいです。 商用利用に関してはあまり詳しく書かれていない印象ですが、想定していそうな感じがしますが、商用利用は要確認ですね ファイル形式は「GLB 形式」でダウンロードできます。 あと、「作品は 28 日間、[自分の作品] ページに保存されます。その後、システムから自動的に削除」だそうです。 「Copilot 3D」 お

評判の動画生成AIの「ConmfyUI」で「Wan2.2」省メモリー版を使ってみた

AI関連

評判の動画生成AIの「ConmfyUI」で「Wan2.2」省メモリー版を使ってみた

「ConmfyUI」の標準的テンプレートを使用してみましたが、「RTX5070 Ti 16GB」だととりあえず動きますが、動作のサイズや時間でメモリー不足になってしまします。 また、調節も色々難しくて、動画のサイズで生成中に止まったり、なかなか思うように生成できません。 昨日の記事でも載せましたが、初期状態で何もいじらずに、動画を作成した時の内容です。 0:00 /0:05 1× 5秒だけですが凄いですよね。 水滴の動きまでちゃんと表現できています。 時間を延ばそうと色々と設定を変えたり、プロンプトを変えてみましたが、時間を延ばすとメモリーが足りなくなります。 そんな時、 ComfyUIでWan2.2をLoRAを使って軽量化し、RTX3060で動かす こんな記事が流れてきました。 少ないメモリーで動かす試みです。 これを適用すれば、メモリー不足が緩和されて、動画サイズや時間を伸ばしてもうまく動きそうです。 ネタ元は「reddit」の書き込みだそうで、こちらを参照しつつ試しました。 reddit

購入したミニPC「GMKtec」の「EVO-X1」が来たので動かしてみた!

AI関連

購入したミニPC「GMKtec」の「EVO-X1」が来たので動かしてみた!

ミニPC「GMKtec」の「EVO-X1」については、購入時に書いた前回の記事を参照してください。 ミニPCを購入してしまった・・・処理の重いAI処理を行っていると、それに処理をとられてしまって、動画編集とか他の作業が滞ってしまいます。 そこで、サブ的作業、または動画編集環境のバックアップ的な意味で、高性能なミニPCをバックアップマシンにしようという考えで購入しました。 ライブ配信なんかでも利用できそうですし、汎用性の高さも個人的には決めた要因です。 購入したのは、「GMKtec」というメーカーの「EVO-X1」という機種でCPUに「AMD Ryzen AI 9 HX-370」を搭載していて、強めのCPUを積んでいます。 アマゾンのリンク GMKtec Full Spec 版 EVO-X1 AI ミニPC AMD Ryzen AI 9 HX-370(最大5.1GHz 12コア/24スレッド)搭載 LPDDR5X 8000MHz 64GB 1TB

AIは嘘をつくよね!

AI関連

AIは嘘をつくよね!

昔から、AIの嘘問題はあるわけですが、最近はかなり減ってきたように思います。 特に自動的にWEBページから情報を検索してきたり、複数のページを比較して正しい情報を持ってくる仕組みなどが導入され、実用レベルで使えるようになって、便利になりました。 ただ、その分嘘が巧妙になっていくというか、分かりにくい嘘をついてくれます。 そんな中、こんな分かりやすい嘘な上に、雑な仕事されたので、逆に面白くなってしまいました。 今回のプロンプト RTX50シリーズのそれぞれのコア数やメモリー搭載量などを比較できる表を作ってください 以下はRTX 50シリーズの主要モデルのコア数やメモリー搭載量を比較した表です。情報は複数の信頼できるウェブサイトから取得しました。 モデル CUDAコア数 RTコア数 メモリ容量 メモリタイプ RTX 5090 18,432 144 24GB GDDR7 RTX 5080 12,288 96 16GB GDDR7 RTX 5070 Ti 10,240 80 12GB GDDR7 RTX 5060 6,144

「Gemini CLI」を使ってみる! その4 「Gemini CLI」を使い倒したら!!選ばれたのは「Claude」でした!!

AI関連

「Gemini CLI」を使ってみる! その4 「Gemini CLI」を使い倒したら!!選ばれたのは「Claude」でした!!

タイトルで落ちが・・・・w 経緯 そもそもClaudeを使える環境があるので、Claudeは利用していたのですが、外部のサービスからClaudeを呼び出して使うタイプなので、「Claude Code」を利用することはできませんでした。 とは言え、元々proプランでは使えなかった上に、Windowsから直接使うこともできなかったので、外部サービスから使うのと、特に違いがなかったのですが、「Claude Code」がproプラン解禁!となって、話は変わってきました。 それであれば、proプランに契約して使ってみないなと思っていた矢先に、「Gemini CLI」が公開! こうなってしまうと、一旦無料は使うだけ使ってみたい上に、Windowsで簡単に使えるように設計されていて、 「Claude Code」と違ってGoogleアカウントで使えて、環境さえ整えればすぐ使えるハードルの低さが強いですよね。 そうなると、一旦「Gemini CLI」になっちゃったわけです。 ここからは、「Gemini CLI」をそれなりに使ってみた結果、無料で使えると言い つつも、通常は「Gemini