AI関連

AIの種類って多いのでopenAIのchatGPTだけまとめてみた

色々なLLMがありますが、一番一般的に知られているのがchatGPTだと思います。
最近のAIの代名詞って感じでしょうか？
実際、「o4-mini」と「GPT-4o Mini」って何が違って、結局どっちが新しいの？何が違うの？
と、聞かれるとさっぱりです・・・
他にも、別の会社のAIも
Grok
DeepSeek
Qwen
Llama
Claude
Gemini
なんて感じで沢山あります。
他もまとめたい所ですが、まずはchatGPTを調べる事にしました。

そこで、こういう事はAIさんにまとめてもらいました。

簡単にまとめると

幅広い用途・高精度を求めるなら：GPT-4o
コスト重視・個人/小規模用途なら：GPT-4o Mini
人間らしさ・自然な対話重視なら：GPT-4.5
開発・業務自動化・長文処理なら：GPT-4.1
専門的な推論や研究開発なら：oシリーズ

という感じですが、もう少し詳しく得意な物と不得意な物を表にしてみました

主なモデル一覧と特徴

モデル名	リリース	主な特徴・用途	向いている用途	不向きな用途・注意点
GPT-4.5	2025年2月	感情知能・自然な対話・応答速度向上。ハルシネーション抑制。創造性・直感力も強化。	カスタマーサポート、創造的な文章作成、自然な対話	高度な指示精度や専門的コーディングでは4.1に劣る
GPT-4o	2024年5月	テキスト・画像・音声のマルチモーダル処理。リアルタイム応答。高精度な会話・情報整理。	画像・音声を含む会話、レポート作成、全般的な業務	超長文や専門的コーディングは4.1が優位
GPT-4o Mini	2024年7月	GPT-4oの軽量・高速・低コスト版。精度はやや劣るが、ほぼ同等の機能。個人・小規模向け。	無料利用、リアルタイム応答、モバイル・軽量端末	高度な専門性や最大精度が必要な業務
GPT-4.1	2025年4月	1Mトークンの超長文対応。指示追従・コーディング性能が大幅向上。業務・プログラミング特化。	プログラミング、業務指示、構造化文書、長文分析	日常会話や感情表現は4.5/4oが優位
GPT-4.1 Mini	2025年4月	4.1の軽量・高速版。コスト重視・API向け。精度はやや低いが、指示追従や長文処理は十分。	コスト重視の開発、軽量な業務自動化	最高精度・複雑なコーディング
GPT-4.1 Nano	2025年4月	4.1シリーズ最小・最速モデル。リアルタイム性重視。精度は低い。	超低コスト・即時応答が必要なタスク	高度な推論・専門性
o1シリーズ	2024年12月	高度な推論・複雑な問題解決。STEM分野や経営戦略など専門性重視。	研究・分析・戦略立案、複雑な意思決定	日常会話や汎用的な用途
o3-mini	2025年1月	o1系の高速・柔軟モデル。思考の深さを3段階調整可能。数学・コーディング・科学分野に強い。	学術研究、ビジネス現場、数学・科学分野	感情表現や自然な対話
o4-mini	2025年4月	o3の後継。高度な推論・画像とテキストの同等処理。視覚情報の理解に強い。	画像分析・高度な推論タスク	汎用的な会話や感情表現

ざっくりモデル別の向き・不向きまとめ

GPT-4o：万能型。マルチモーダル（テキスト・画像・音声）対応で、日常会話から業務・レポート作成まで幅広く活躍。リアルタイム性と高精度を両立。
向き: 報告書作成、情報整理、画像・音声を含む会話、最新情報収集
不向き: 超長文や複雑なコーディング（4.1が上）

GPT-4o Mini：4oの軽量版。無料・低コスト・高速で、個人利用や小規模ビジネス、モバイル端末などに最適。
向き: 無料利用、リアルタイムチャット、大量タスク処理
不向き: 最高精度や専門性が必要な業務

GPT-4.5：感情知能・自然な対話・応答速度が強化。人間らしい会話や共感が必要な場面に強い。
向き: カスタマーサポート、創造的な文章、対話重視のアプリ
不向き: 精密な業務指示やコーディング

GPT-4.1：超長文・コーディング・業務タスク特化。指示追従力と安定性が高い。
向き: プログラミング、業務自動化、構造化文書、長文分析
不向き: 感情表現や自然な会話

oシリーズ（o1/o3/o4）：高度な推論や専門性重視。学術・研究・分析向け。
向き: 研究開発、戦略立案、数学・科学分野
不向き: 汎用的な会話や感情的なやりとり

自分の用の調査ですが、参考になれば。

以上

オープンソースの２画面ファイラーで、欲しい機能をAIで追加してみた

「shellfiler」というオープンソースの２画面ファイラーを愛用していました。シェアウェアの頃から、お金を払わせてもらって使わせてもらっていたのですが、ある時からオープンソースになりました。個人的に欲しい機能で、ネットワーク上のNASや他のPCの共有フォルダに手軽にアクセスする機能です。具体的には「\PC名\共有フォルダ名」みたいなアクセスなんですが、これに対応していません。ネットワークドライブ（ネットワーク上のアクセス先をドライブとしてWindowsに）を使えばアクセスは出来るので、全く使えない訳ではないのですが、共有フォイルだが多いとそれ全部にネットワークドライブを割り当てる訳にもいかず、最近は使わなくなっていました。他のツールも試しましたが、「shellfiler」の使い勝手が結構良くて、個人的には変えたくいない！そこで、せっかくオープンソースなんだから、AIで必要な部分を修正できれば、良さそう！「shellfiler」のGITのURLです。使用するAIは今回Geminiさんで、新しくなった「AntiGravity」でやってみます。作業ファルダを指

自動的にカラオケっぽい歌詞を付けるアプリを作ってみた結果

sunoで作成した曲に歌詞を付けるのが手間だなぁ～と常々思っていたのですが、これを効率化したいと言う事で、今回は歌を解析して歌詞を指定すればタイミングを合わせて配置してくれるアプリを作ってみました。せっかく作ったので少し解説と、どんな物が作れるのか、デモの動画と少し解説をしますが、アプリそのものはライセンスの問題で非公開です。実際にこのツールで作成した動画を３本ほど紹介スペルトナエルサイコロ勇者と魔王の城アトミックピクニック見てもらうと分かりますが、これが思ったより簡単に作れるようになったので、現在のように短期間で作れるようになりました。歌詞入りで曲を公開する場合に、歌詞を入れる作業に時間がかかる割に、イマイチなできになる事も多いので、クオリティーが安定したのも良かったです。では、次の動画で実際にツールを使って曲に歌詞を入れていきます。使用しているＡＩのライセンス問題で、手軽に公開できないのと、需要がそれ程無さそうなので、こんなアプリで動画作成してますよって紹介になります。音源さえ用意すれば、カラオケも作れちゃいます。カラオケの例です。

ある人から、MarkdownのテキストをPDFにしてくれる何かが欲しいと言われたので、Claude Codeで作る事にした

実際、AIはMarkdownで解答を返してくる事が多く、普通に使っているだけでも、Markdown形式のテキストが手軽に表示したり、PDFに変換できると便利だと思うので、ブラウザで手軽に使える物を作りました。作成後WEB上にアップしたのが以下のURLになります。 https://test.aisgm.me/test_prog/app/md2pdf/ VS Codeのプラグイン入れれば、同じ事は出来ますし、他にも同じようなアプリを作っている人がいるので、それを使うのも手なんですが、最近は怪しいサイトも多いですし、広告が大量に出るものも多いです。更に、プラグインがウィルスに汚染されているケースなんかもニュースになっているので、セキュリティー的に使った事が無いものを人に勧めるのも怖いです。そんな訳で、手軽に使えてインストール等の面倒な準備が必要無いってなると、WEBアプリでアクセスすれば使えて、ローカルで処理させるのが良さそうです。配布やインストールの手間も必要無く、使いたい時にネットに繋がって、ブラウザさえあれば動くので一番使い勝手がいいですよね。ってな訳で、Claude

画像フォーマットに関する記事を見て色々と深掘りしてみた

画像フォーマットの正体とWebPの「予測マジック」を理解する次世代画像フォーマットAVIFを触ってみた割と最近の画像圧縮フォーマットについてです。「webp」は比較的見るようになったフォーマットですが、従来は画像のサイズが小さいのはJPGで、透明色が使えて画質を維持するのがPNGって感じで、使い分けられていると思います。しかし、JPGは古いフォーマットで圧縮アルゴリズムも古い上に、透明色が使えないなど改良の余地が多々あるので、「JPEG 2000」というフォーマットも作成されました。「JPEG 2000」は技術的には従来のJPEGを大幅に上回る優秀なフォーマットにもかかわらず、処理負荷の高さや互換性の問題から一般消費者向けには普及しませんでした。今となっては、それ程負荷は高くないのですが、開発された当時（2000年代前半）のPCのスペックを考えると厳しかったと思われます。 2001年のPCスペックを調べてみました。 Intel Pentium III 256MBから512MBのRAM 20GBから80GB Windows 98やWindows 2000が主流この