概要
https://qiita.com/Seine_A_Shintani/items/4baee9ff7c2f6942bff8
詳細内容
## 機械学習は“内挿に強く外挿に弱い”を図で理解する — LightGBM vs 線形回帰
https://qiita.com/Seine_A_Shintani/items/4baee9ff7c2f6942bff8
機械学習モデルは学習データ範囲内の内挿では高い精度を発揮するものの、LightGBMのようなツリーベースモデルは範囲外への外挿で予測値が飽和し機能不全に陥る一方、線形回帰も非線形な真の関数に対しては過小予測となる、「内挿に強く外挿に弱い」特性を明確に解明します。
**Content Type**: 🔬 Research & Analysis
**Scores**: Signal:4/5 | Depth:4/5 | Unique:3/5 | Practical:5/5 | Anti-Hype:5/5
**Main Journal**: 81/100 | **Annex Potential**: 80/100 | **Overall**: 84/100
**Topics**: [[機械学習モデルの限界, 内挿と外挿, LightGBM, モデル評価, ドメイン知識]]
機械学習モデルを実運用する上で、訓練データ範囲外への予測(外挿)の振る舞いを理解することは不可欠です。本記事は、温度と反応速度の関係をモデル化した真の関数に対し、狭い範囲で学習させたLightGBMと線形回帰の予測性能を広範囲で比較する具体的な実験を通じて、「内挿に強く外挿に弱い」というモデルの特性を鮮やかに可視化しています。
実験結果として、LightGBMは内挿域では高い精度を示しますが、外挿域では予測値が飽和し、値が張り付いたかのように伸びが止まります。これは、LightGBMが区分定数的な出力であり、未知の領域では新たな分割ができず、最も近い葉ノードの値に固定される原理的な限界に起因します。一方、線形回帰は直線的に外挿できますが、真の関数が非線形に加速する領域では過小予測に陥ることが、予測曲線と絶対誤差のグラフで視覚的に裏付けられました。
この知見は、プロダクト開発におけるMLモデルの信頼性向上に極めて重要です。webアプリケーションエンジニアが本番環境で直面する学習時と異なる入力分布や未経験の状況(外挿シナリオ)で、モデルが予期せぬ挙動を示さないよう、以下の実践が求められます。第一に、ドメイン知識を活かした特徴量設計(例:反応速度における温度の逆数変換)で関係性を整えること。第二に、学習域外での評価テストを組み込み、外挿誤差を可視化すること。そして第三に、ツリーベースモデルの限界を認識し、外挿性能が不可欠な場面では、パラメトリックモデルなど仮定が明確なモデルの採用も視野に入れるべきです。この「内挿・外挿問題」への意識が、より堅牢なシステム構築に繋がります。