## LLMへの入力前に不要な文を削除するモデル「OpenProvence」公開

概要

https://secon.dev/entry/2025/10/31/100000-open-provence-release/

詳細内容

## LLMへの入力前に不要な文を削除するモデル「OpenProvence」公開 https://secon.dev/entry/2025/10/31/100000-open-provence-release/ hotchpotch氏が、LLMへの入力前に検索結果から無関係な文を削除し、コスト削減と精度向上を図るオープンソースモデル「OpenProvence」を公開した。 **Content Type**: Tools **Language**: ja **Scores**: Signal:5/5 | Depth:4/5 | Unique:4/5 | Practical:5/5 | Anti-Hype:4/5 **Main Journal**: 89/100 | **Annex Potential**: 87/100 | **Overall**: 88/100 **Topics**: [[LLM最適化, RAG, コーディングエージェント, コンテキストエンジニアリング, 自然言語処理]] 近年のAI AgentやDeepResearch、Context Engineeringといった技術では、LLMに回答させるための「良い知識」を生成するために、大量の検索を行い情報を収集します。しかし、検索結果が肥大化すると、LLMの誤情報抽出、ハルシネーションの発生、処理速度の低下、そして利用費用の増加といった課題が生じます。この課題に対し、本記事ではLLMに渡す前に検索結果中の関連しない文章を削除し、関連度スコアを付与するアプローチ「Provence」を紹介しています。このアプローチにより、最大で文章の80〜95%（長文の場合）を削除し、LLMへの入力データ量を大幅に削減できるとされています。しかし、オリジナルのProvenceが非商用ライセンスであり、日本語データセットが公開されていなかったため、著者は学習・推論コード、モデルの重み、そして日本語データセットをオープンなライセンスで提供する「OpenProvence」プロジェクトを立ち上げました。このリリースにより、日本語圏の開発者が同様の課題を解決するための強力なツールを手に入れられます。特筆すべきは、OpenProvenceの推論・学習モデル実装、評価実装、データセット作成実装といった全ての工程が、著者が「一行もコードを書かない」という制約のもと、コーディングエージェント（Claude Code、Codex）によって実現された点です。著者は、適切な指示と開発指針、そしてAIが自身で開発・改善し続けられる環境を整えることで、プロダクション品質のソフトウェアをAIと協調しながら作成する「Vibe Engineering」の可能性を示したと述べています。 OpenProvenceは、Hugging Face Spacesのデモで手軽に試せるほか、ローカルマシンでの実行やPython APIからの利用方法も提供されており、特に巨大な文章を扱うプロダクトや、2025年に流行が予測されるAI Agent、DeepResearch、Context Engineeringといった技術を先行して取り入れるWebアプリケーションエンジニアにとって、実装の難易度を下げ、LLM活用の効率と精度を大幅に向上させる重要な基盤となるでしょう。

元記事を読む他のサマリーを見る