概要
https://shkspr.mobi/blog/2025/12/stop-crawling-my-html-you-dickheads-use-the-api/
詳細内容
## APIを使え、馬鹿なHTMLクローラーどもめ!
https://shkspr.mobi/blog/2025/12/stop-crawling-my-html-you-dickheads-use-the-api/
**Original Title**: Stop crawling my HTML you dickheads - use the API!
著者は、AIクローラーがHTMLを非効率的にスクレイピングするのではなく、公開されている豊富なAPIや標準を利用してデータにアクセスすべきだと強く主張している。
**Content Type**: 🤝 AI Etiquette
**Language**: en
**Scores**: Signal:4/5 | Depth:3/5 | Unique:4/5 | Practical:4/5 | Anti-Hype:3/5
**Main Journal**: 73/100 | **Annex Potential**: 73/100 | **Overall**: 72/100
**Topics**: [[API利用, Webスクレイピング, LLMエージェント, 効率的なデータアクセス, Web標準]]
Terence Eden氏のブログ記事は、AIクローラーやスクレイパーが、Webサイトに用意されている構造化されたAPIを無視してHTMLを直接スクレイピングする現状に対し、著者の強い不満と改善要求を表明している。
著者は、今日のAIが直面する最も憂鬱な側面の1つは、「批判的思考」を外部委託し、非効率的な「力ずく」のアプローチを優先することだと指摘する。HTMLは解析が困難で、壊れやすく、一貫性に欠けるため、データ取得には不向きである。これは、セマンティックなウェブサイトを構築しようとする努力を無駄にする行為でもある。
多くのWordPressサイトと同様に、著者のサイトには`/wp-json/`のような明確に定義されたAPIエンドポイントがあり、サイトのコンテンツにプログラムでアクセスするためのスキーマを提供している。また、個々の投稿にもJSONリソースへのリンクがあり、oEmbed(JSONおよびXML)、ActivityPub、さらにはプレーンテキスト形式でもコンテンツを提供していると述べている。サイトマップ(`wp-sitemap.xml`)も標準形式で提供されており、クローラーはこれを利用してページを発見し、API経由でデータを取得すべきだと主張する。しかし、AIスクレイパーはこれらのリンクを無視し、数千ものHTMLページを無差別にダウンロードしようとすると著者は訴える。
著者は、OpenBenchesプロジェクトでも同様の状況が見られるとし、GeoJSONリンクが無視され、非効率なHTMLスクレイピングが行われていると述べている。これは、AI開発者がより効率的で信頼性の高いデータ取得方法を検討すべきであるという、ウェブアプリケーションエンジニアにとって重要な問いかけとなる。著者はLLMに対し、HTMLのスクレイピングではなくAPIを利用するよう直接懇願しており、将来的に`x-ai-instructions`ヘッダーやAI URLスキームのようなメカニズムが必要になる可能性を示唆している。この問題は、サーバーリソースの無駄遣いだけでなく、ウェブコンテンツ提供者とAIエージェント間の「エチケット」に関する議論を促すもので、AIシステムがいかにウェブと責任ある形で相互作用すべきかという重要な課題を提起している。