概要
https://zenn.dev/layerx/articles/bcbfa198e1a059
詳細内容
## 作って学ぶ ChatGPT Atlas
https://zenn.dev/layerx/articles/bcbfa198e1a059
AIをネイティブ搭載するChatGPT Atlasのアーキテクチャを深掘りし、その実装を通して次世代のブラウザやウェブアプリケーションUI/UXの未来を考察します。
**Content Type**: Tutorial & Guide
**Language**: ja
**Scores**: Signal:4/5 | Depth:4/5 | Unique:4/5 | Practical:4/5 | Anti-Hype:4/5
**Main Journal**: 100/100 | **Annex Potential**: 100/100 | **Overall**: 80/100
**Topics**: [[AIブラウザ, エージェントベースUI, ブラウザ自動操作, IPC, セマンティックDOM]]
本記事は、OpenAIがリリースしたAIネイティブブラウザ「ChatGPT Atlas」を参考に、「Atlas Like」なブラウザを自作しながら、その実装とアーキテクチャを深掘りする実践的なガイドです。ブラウザにAIが組み込まれることは避けられない流れであり、UI/UXが大きく変化すると予測される中で、AIネイティブなブラウザの理解が今後のアプリケーション開発において重要であると著者は強調しています。
まず、Atlasの基本的な検索体験(ChatGPT中心の検索、左右分割UIでのチャット継続)が紹介され、特にブラウザ操作自体を自然言語で制御する「Agent Mode」に注目します。これはヘッドレスブラウザではなく、実ブラウザをAIが操作し、ユーザーが介入できる点が特徴です。著者は、この自然言語によるブラウザ操作体験が将来的に当たり前になり、あらゆるアプリケーション操作がAgentによって代替される未来が遠くないと考えています。
Atlasのアーキテクチャは、Chromiumベースでありながら、デスクトップアプリの「Atlas」と「OWL (OpenAI’s Web Layer)」の2つのアプリで構成されています。ChromiumはOWLに内包され、Atlas本体はネイティブのSwiftUIアプリとしてChromiumを直接組み込まず、プロセス間通信(IPC)で連携することで、構造のシンプル化、パフォーマンス、開発効率の向上を図っています。Agent Modeは、このIPCを通じてAIがOWLのブラウザプロセスにUI操作を指示することで実現されます。
さらに、著者はAtlas自身に質問することで、IPCで定義される具体的な操作(ナビゲーション、レンダリング、入力、JavaScript実行など)や、LLMに渡されるWebContentsが単なるDOMではなく「DOM/AX/LayoutのハイブリッドJSON」という軽量で意味的なUIスナップショット構造であること、ページ内のスクリーンショットも利用されていることなどの詳細を探求します。
実装フェーズでは、著者はElectronを用いて「Atlas Like」なブラウザを自作し、ブラウザの情報をLLMが理解しやすいセマンティックなDOMに変換する手法やIPCの定義を紹介します。実装の過程で、エージェントがタスクを計画し、実行中に発生するエラーを前提としたリカバリーハンドリングや粘り強いタスク遂行のためのエージェント設計が不可欠であるという実用的な課題が浮き彫りになります。
著者は、ブラウザのUIから直接ChatGPTを呼び出すアシスト機能や過去のチャットをメモリとして保持する機能など、Atlasの他にも魅力的な機能が多く、ブラウザ体験が大きく変わる過渡期にあることを強く感じています。今後のソフトウェアは、Agenticなブラウザ上でAgenticなアプリケーションが協調する設計が求められるようになり、アプリケーション開発者の役割も変化すると結論付けています。