Lightfeed Extractor: LLMとブラウザ自動化による堅牢なWebデータ抽出ツール

概要

LLMとPlaywrightを活用し、HTMLやMarkdownからZodスキーマに基づいた構造化データを高精度かつ効率的に抽出するTypeScriptライブラリ。

詳細内容

Lightfeed Extractorは、大規模言語モデル（LLM）を用いてWebサイトから構造化データを抽出するためのTypeScriptライブラリです。主な特徴は以下の通りです。 1. **LLM最適化Markdown変換**: HTMLをLLMが理解しやすいMarkdownに変換。メインコンテンツの抽出や、URLの追跡パラメータ削除などのクリーンアップ機能を備えています。 2. **スキーマ駆動の抽出**: Zodスキーマを使用して抽出データの構造を定義。JSONモードにより正確な出力を得られるほか、不完全なJSONを復元する「JSONリカバリ機能」により、深いネスト構造でも高い堅牢性を実現します。 3. **広範なモデル対応**: LangChainを介してOpenAI, Gemini, Anthropic, Ollamaなど多様なプロバイダーを利用可能です。 4. **ブラウザ自動化連携**: Playwrightと直接連携できるほか、同社の`@lightfeed/browser-agent`を併用することで、自然言語コマンドによるブラウザ操作（ログインや検索）後のデータ抽出も自動化できます。開発者は複雑なDOM解析コードを書く代わりに、抽出したいデータの形をスキーマで定義するだけで、ECサイトの商品情報やブログ記事などの収集パイプラインを構築できます。

元記事を読む