概要
https://www.reddit.com/r/singularity/comments/1q6vaxj/how_we_used_gpt52_to_solve_an_erdos_problem/?show=original
詳細内容
## GPT-5.2による数学の未解決問題「エルデシュ問題」の解決と、それを実現した高度なAIワークフロー
https://www.reddit.com/r/singularity/comments/1q6vaxj/how_we_used_gpt52_to_solve_an_erdos_problem/?show=original
**Original Title**: How We Used GPT-5.2 to Solve an Erdos Problem
複数の次世代LLMを組み合わせた多段階の推論・検証ワークフローを構築し、人間が未解決だったエルデシュ問題(#728)を世界で初めてAIによって証明した手法を詳細に報告する。
**Content Type**: 🔬 Research & Analysis
**Language**: en
**Scores**: Signal:4/5 | Depth:4/5 | Unique:5/5 | Practical:4/5 | Anti-Hype:3/5
**Main Journal**: 81/100 | **Annex Potential**: 82/100 | **Overall**: 80/100
**Topics**: [[LLM Reasoning, Mathematical Proofs, Prompt Engineering, Agent Workflows, Lean 4 Formalization]]
本記事は、2026年時点の視点から、GPT-5.2を用いて数学の未解決難問「エルデシュ問題」を解決したプロセスを解説している。著者は、従来のLLMが直面していた「未解決問題であると認識すると解決を拒絶する性質」と、深刻な「ハルシネーション」という2つの大きな障壁を、システム的なワークフローによってどのように打破したかを明らかにしている。
著者が重要視しているのは、単一のモデルに回答を求めるのではなく、役割を分担させた複数のインスタンスによるオーケストレーションだ。具体的には以下の4段階のワークフローが提示されている。第一に、ネット接続のあるモデルに「未解決問題であること」を伏せた状態でリサーチさせ、解決のための独創的なアイデアと、他モデル用の実行プロンプトを生成させる。これにより、LLMが「解けるはずがない」と自己制限(拒絶)する問題を回避した。第二に、ネットから遮断された「Thinking(思考型)」インスタンスにそのプロンプトを与え、純粋な論理構築を行わせる。第三に、別のインスタンスによる相互検証と人間(数学徒)によるレビューを経て、論理の欠陥を修正する。そして最後に、AI formalizationツールを用いて数学証明言語「Lean 4」へと変換し、数学的な厳密さをコンピュータで完全に証明(formalize)するという手順だ。
著者は、GPT-5.2が以前のモデル(Gemini 3等)と異なり、自身の限界に対して「正直」であり、証明できない部分を明示する能力を備えていたことがブレイクスルーの鍵だったと主張している。最終的にこの証明は、著名な数学者テレンス・タオ氏によっても妥当性が認められ、AIが人間の知識の最前線を拡張する実用的なパートナーになり得ることを実証した。この事例は、エンジニアにとって、LLMの「拒絶」や「嘘」という制約を、ワークフローのデザインによって解決可能なテクニカルな課題として捉え直す重要な示唆を与えている。