概要
https://secon.dev/entry/2025/10/31/100000-open-provence-release/
詳細内容
## LLMへの入力前に不要な文を削除するモデル「OpenProvence」公開
https://secon.dev/entry/2025/10/31/100000-open-provence-release/
hotchpotch氏が、LLMへの入力前に検索結果から無関係な文を削除し、コスト削減と精度向上を図るオープンソースモデル「OpenProvence」を公開した。
**Content Type**: Tools
**Language**: ja
**Scores**: Signal:5/5 | Depth:4/5 | Unique:4/5 | Practical:5/5 | Anti-Hype:4/5
**Main Journal**: 89/100 | **Annex Potential**: 87/100 | **Overall**: 88/100
**Topics**: [[LLM最適化, RAG, コーディングエージェント, コンテキストエンジニアリング, 自然言語処理]]
近年のAI AgentやDeepResearch、Context Engineeringといった技術では、LLMに回答させるための「良い知識」を生成するために、大量の検索を行い情報を収集します。しかし、検索結果が肥大化すると、LLMの誤情報抽出、ハルシネーションの発生、処理速度の低下、そして利用費用の増加といった課題が生じます。
この課題に対し、本記事ではLLMに渡す前に検索結果中の関連しない文章を削除し、関連度スコアを付与するアプローチ「Provence」を紹介しています。このアプローチにより、最大で文章の80〜95%(長文の場合)を削除し、LLMへの入力データ量を大幅に削減できるとされています。
しかし、オリジナルのProvenceが非商用ライセンスであり、日本語データセットが公開されていなかったため、著者は学習・推論コード、モデルの重み、そして日本語データセットをオープンなライセンスで提供する「OpenProvence」プロジェクトを立ち上げました。このリリースにより、日本語圏の開発者が同様の課題を解決するための強力なツールを手に入れられます。
特筆すべきは、OpenProvenceの推論・学習モデル実装、評価実装、データセット作成実装といった全ての工程が、著者が「一行もコードを書かない」という制約のもと、コーディングエージェント(Claude Code、Codex)によって実現された点です。著者は、適切な指示と開発指針、そしてAIが自身で開発・改善し続けられる環境を整えることで、プロダクション品質のソフトウェアをAIと協調しながら作成する「Vibe Engineering」の可能性を示したと述べています。
OpenProvenceは、Hugging Face Spacesのデモで手軽に試せるほか、ローカルマシンでの実行やPython APIからの利用方法も提供されており、特に巨大な文章を扱うプロダクトや、2025年に流行が予測されるAI Agent、DeepResearch、Context Engineeringといった技術を先行して取り入れるWebアプリケーションエンジニアにとって、実装の難易度を下げ、LLM活用の効率と精度を大幅に向上させる重要な基盤となるでしょう。