概要
https://qiita.com/toriitorippy/items/bfe2453732e4de688b9
詳細内容
## 【ブラウザをAIエージェントが操作!?】Amazon Nova Actを体験してみた
https://qiita.com/toriitorippy/items/bfe2453732e4de688b9
Amazon Nova Actが一般提供を開始し、自然言語指示でWebブラウザを自律操作するAIエージェントとして、ウェブアプリケーションエンジニアが直面する定型UIワークフローの自動化に革新をもたらす。
**Content Type**: ⚙️ Tools
**Language**: ja
**Scores**: Signal:4/5 | Depth:4/5 | Unique:3/5 | Practical:4/5 | Anti-Hype:4/5
**Main Journal**: 76/100 | **Annex Potential**: 73/100 | **Overall**: 76/100
**Topics**: [[AIエージェント, ブラウザ自動化, AWS Nova Act, 強化学習, UIワークフロー自動化]]
AWS re:Invent 2025で一般提供(GA)が発表されたAmazon Nova Actは、自然言語の指示に基づきWebブラウザを自律的に操作するAIエージェントであり、Webアプリケーションエンジニアが直面する定型UIワークフローの自動化に新たな可能性を開きます。著者は、従来のハードコーディングによるWebスクレイピングやUI自動化の困難さを踏まえ、Nova Actがもたらす柔軟性に期待を寄せています。
Nova Actは、自然言語とPythonコードの組み合わせでエンドツーエンドのタスクワークフローを定義し、UI操作を反復的に実行します。APIやリモートMCP、Strand Agentといった外部ツールとの連携を前提としたAgentic AIの構築が可能で、人間による介入を促すHuman-in-the-Loop設計も特徴です。これにより、Webブラウザの環境に依存せず、データの取得、検索・フィルター操作、ドロップダウン選択といった複雑なタスクを効率的に自動化できます。具体的なユースケースとして、APIを持たないSaaSへのログイン、請求書やレポートの取得、ショッピングサイトでの定期購入などが挙げられています。
学習方法においては、従来の模倣学習ではなく強化学習を採用。実際のUIを再現した「Nova Act Gym」を通じて数千ものワークフロー試行を重ねることで、タスク実行の信頼性を向上させています。
記事では、まずNova ActのPlaygroundでのデモンストレーションを通じて、AIエージェントの思考プロセスとUI操作の可視化を体験。続いて、ローカル環境でのNova Act SDKの動作検証手順を詳細に解説しています。IAM認証を用いたAWSコンソールでのワークフロー定義から、PythonスクリプトによるAmazonショッピングサイトでの「クリスマスプレゼント検索、予算内商品選択」タスクの自動実行を実践。エージェントが検索バーへの入力、スクロール、条件に合致する商品選択を自律的に行う様子が、詳細なログ出力によって可視化され、その具体的な思考過程が明確に示されています。著者は、Nova Actが進化を続けるサービスであり、今後はワークフローのデプロイやHuman-in-the-Loop機能の検証を進めていきたいと述べています。