概要
https://github.com/haykgrigo3/TimeCapsuleLLM
詳細内容
## 現代のバイアスを排除:特定年代のデータのみでゼロから学習する「TimeCapsuleLLM」
https://github.com/haykgrigo3/TimeCapsuleLLM
**Original Title**: A LLM trained only on data from certain time periods to reduce modern bias
特定の時代や地域のデータのみを用いてゼロから学習することで、現代的な価値観や知識に汚染されない歴史的な「世界観」を忠実に再現する。
**Content Type**: ⚙️ Tools
**Language**: en
**Scores**: Signal:4/5 | Depth:4/5 | Unique:5/5 | Practical:3/5 | Anti-Hype:4/5
**Main Journal**: 78/100 | **Annex Potential**: 83/100 | **Overall**: 80/100
**Topics**: [[LLMトレーニング, ゼロからの学習, 歴史的バイアス, データキュレーション, Selective Temporal Training]]
GitHubリポジトリ「TimeCapsuleLLM」は、特定の時代や地域のデータのみを用いて大規模言語モデル(LLM)をゼロからトレーニングする、意欲的なプロジェクトである。本プロジェクトの核心は、現代的な価値観や知識による「現代のバイアス」を排除し、その時代特有の語彙、文体、そして「世界観」を真に再現することにある。
著者が提唱する「Selective Temporal Training (STT)」は、ファインチューニングやLoRAのような既存モデルへの追加学習とは一線を画す。既存の学習済みモデル(GPT-2やLlamaなど)をベースにする場合、いくら歴史的データで微調整しても、モデルの根底にある現代的な知識やバイアスを完全に拭い去ることはできない。筆者によれば、本物の「歴史的AI」を構築するためには、現代の知識に一切触れていない状態で、特定の時代(本プロジェクトでは1800年〜1875年のロンドン)のテキストのみを学習させる「スクラッチからのトレーニング」が必要不可欠なのである。
技術的な変遷を見ると、初期のv0/v0.5ではAndrej Karpathy氏の「nanoGPT」ベースの小規模モデルであったが、v1ではMicrosoftの「Phi 1.5」、さらにv2では「Llama」ベース(LlamaForCausalLM)へと進化し、学習データも90GB規模(13万文書以上)に拡大されている。特にv1以降では、単なる文体の模倣を超え、1834年のロンドンにおける抗議活動といった特定の史実を正確に想起・関連付ける能力が確認されている。ただし、学習データの品質向上には、Project Gutenberg等の資料に含まれる近代的な注釈やOCRエラー、Googleによる電子化の署名などをスクリプトで除去する高度なデータキュレーション工程が重要となる。
Webアプリケーションエンジニアにとっての興味深い視点は、モデルの「能力」ではなく「制約」を設計することの価値である。汎用LLMが「何でも知っている」ことを目指すのに対し、本プロジェクトは意図的に知識を制限することで、特定コンテキストにおけるリアリティを追求している。これは、特定の専門知識や独自ドメインに特化し、かつ外部の一般常識や現代のバイアスに影響されたくない「特化型エージェント」を構築する際の、一つの有効な技術的アプローチとなり得るだろう。