## agent-browserに学ぶAI最適なブラウザ操作とツール提供の考え方

概要

https://note.com/timakin/n/n943a6e1d5216

詳細内容

## agent-browserに学ぶAI最適なブラウザ操作とツール提供の考え方 https://note.com/timakin/n/n943a6e1d5216 Vercel Labsが公開した`agent-browser`の設計思想を解読し、アクセシビリティツリーの活用と情報のフィルタリングによってAIエージェントのトークン消費を劇的に削減する手法を解説する。 **Content Type**: ⚙️ Tools **Language**: ja **Scores**: Signal:4/5 | Depth:4/5 | Unique:3/5 | Practical:4/5 | Anti-Hype:4/5 **Main Journal**: 76/100 | **Annex Potential**: 73/100 | **Overall**: 76/100 **Topics**: [[agent-browser, AIエージェント, アクセシビリティツリー, トークン最適化, Web自動化]] Vercel Labsからリリースされた`agent-browser`が、いかにして「トークン消費93%削減」という驚異的な効率を実現しているのか、その内部設計とAIエージェント向けツール設計の核心を、株式会社ベースマキナの高橋氏が深く考察している。従来のPlaywright MCPなどのツールは、26種類以上の多すぎるメソッドや、複雑なページで数千ノードに及ぶアクセシビリティツリーをそのままLLMに送ってしまう「コンテキスト爆発」が課題であった。これに対し`agent-browser`は、ブラウザが内部で持つ「意味」ベースの構造化表現であるアクセシビリティツリー（AOM）を基盤に採用。DOMを直接渡すよりもノイズが少なく、AIが判断しやすい形式を選択している。最大の特徴は「Snapshot + Refs」というワークフローにある。まず`snapshot`コマンドでページ解析を行い、各要素に`ref=e1`のような一意の識別子を付与する。以降の操作（clickやfill）はこの識別子を指定して実行される。これにより、毎回ページを再解析（DOM再クエリ）する必要がなくなり、決定論的な要素特定が可能になる。また、コマンドラインツール（CLI）として設計されているため、Vercelが推進するBashベースのサンドボックス環境とも極めて親和性が高い。さらに、著者は強力なフィルタリングオプションの重要性を指摘する。特に`-i`フラグ（インタラクティブ要素のみ抽出）を使用することで、説明的なテキストを排除し、ボタンや入力フォームといった操作対象だけに絞り込むことが可能になる。著者は、AIエージェントにスクリーンショット（画像）ではなくテキストを送る理由として、トークン消費の予測可能性、加工の容易さ、デバッグのしやすさを挙げている。本記事の結論として、著者はAI時代におけるツール設計の3つの原則を提示している。 1. **情報のフィルタリング**: 全部送るのではなく、必要なものだけを送る。 2. **構造化テキストへの変換**: 生データではなく、意味ベースの表現に変換する。 3. **参照ベースの操作**: 状態を持たせて、再クエリを減らす。「何を送るか」以上に「何を送らないか」を徹底するこの設計思想は、ブラウザ操作のみならず、ドキュメント分析やコードレビューといったあらゆるAIツール開発において、コストと精度のトレードオフを解決する鍵となると主張している。

元記事を読む他のサマリーを見る