掲載済み (2025-11-15号)
#142 554文字 • 3分

## GPT-5.1とGPT-5の違いをGPT-5.1とGPT-5にQiitaの記事としてまとめさせて、GPT-5 Proで評価してみた。(Geminiもいるよ)

日本語

掲載情報

概要

https://qiita.com/autotaker1984/items/932a7059239d3445731f

詳細内容

## GPT-5.1とGPT-5の違いをGPT-5.1とGPT-5にQiitaの記事としてまとめさせて、GPT-5 Proで評価してみた。(Geminiもいるよ) https://qiita.com/autotaker1984/items/932a7059239d3445731f OpenAIの最新モデルGPT-5.1とGPT-5、Gemini 2.5 Proが生成したQiita記事をGPT-5 Proで評価し、各モデルの文章スタイルや実用性、安全性に関する独自分析と筆者の考察を提示します。 **Content Type**: Research & Analysis **Language**: ja **Scores**: Signal:4/5 | Depth:4/5 | Unique:5/5 | Practical:4/5 | Anti-Hype:4/5 **Main Journal**: 84/100 | **Annex Potential**: 86/100 | **Overall**: 84/100 **Topics**: [[GPT-5.1, LLMモデル比較, プロンプトエンジニアリング, LLM評価基準, AI安全性]] この記事は、OpenAIが新たにリリースしたGPT-5.1(Instant/Thinking)、旧来のGPT-5(Instant/Thinking)、そしてGemini 2.5 Proが、Webエンジニア向けのQiita記事を生成する能力を比較検証しています。まず、GPT-5.1に関する詳細レポートをAIに与え、これを基に各モデルに約3000字のQiita記事を作成させました。その後、生成された5つの記事をGPT-5 Proにレビューさせ、「読みやすさ」「論理構成」「独自性」の観点から5段階で相対評価させるという、LLMを評価者として用いるユニークな手法を採用しています。 GPT-5.1の主要な進化点として、高速応答に特化した「Instant」モードと、高精度な推論を行う「Thinking」モードの導入が挙げられます。特に「Adaptive Reasoning(適応型推論)」により、質問の難易度に応じてAIが自動で思考時間を調整する機能や、会話のトーンを8種類の「スタイルプリセット」(例:Professional、Efficient、Friendlyなど)で切り替えられる機能が詳しく解説されています。また、JSON形式の厳守や文字数制限など、開発者にとって重要な指示遵守能力が劇的に改善された点や、メンタルヘルスや感情的依存といった新たな評価カテゴリを含む安全性の大幅な強化も注目すべき点として示されています。 GPT-5 Proによる評価結果では、意外にもGPT-5 Thinkingが実務的なアドバイスの多さで最も高い総合評価を獲得しました。しかし、筆者はこの結果に対して、GPT-5 Thinkingの記事は情報密度が高すぎるあまり読みにくいと感じ、GPT-5.1の生成した記事の方が人間らしく読みやすいという個人的な見解を述べています。この評価の乖離は、LLMを評価者として用いる際の限界、特に主観的な「読みやすさ」や「スタイル」の評価における課題を示唆しています。 筆者の考察では、ThinkingモデルはInstantモデルに比べて生成される回答が長く、事実ベースよりも推論ベースの記述が多い傾向があることが指摘されています。これらの知見は、WebアプリケーションエンジニアがAIモデルを日々の開発業務に組み込む際、タスクの性質に応じてInstantとThinkingモードを適切に使い分け、プロンプト設計において出力フォーマットの厳守やスタイルプリセットの活用、さらにはAIの倫理的側面(ユーザーのメンタルヘルスやAIへの過度な依存防止など)を考慮する必要があることを明確に示しています。本記事は、進化するAIモデルの特性を深く理解し、実務においてより効果的に活用するための具体的な洞察を提供しています。