概要
https://vercel.com/blog/how-ai-gateway-runs-on-fluid-compute
詳細内容
## Vercel AI GatewayはいかにFluid Compute上で動作するか
https://vercel.com/blog/how-ai-gateway-runs-on-fluid-compute
**Original Title**: How AI Gateway runs on Fluid compute
Vercelは、AI GatewayをFluid Compute上で稼働させ、ネットワーク律速なAIワークロードのコストを劇的に削減し、開発者が効率的かつスケーラブルなAI機能を構築できるよう支援します。
**Content Type**: ⚙️ Tools
**Language**: en
**Scores**: Signal:5/5 | Depth:4/5 | Unique:4/5 | Practical:5/5 | Anti-Hype:4/5
**Main Journal**: 89/100 | **Annex Potential**: 87/100 | **Overall**: 88/100
**Topics**: [[AI Gateway, Fluid Compute, サーバーレスコスト最適化, ネットワーク律速型ワークロード, LLMオーケストレーション]]
VercelのAI Gatewayは、単一のエンドポイントを通じて数百のAIモデルに接続できるNode.jsサービスであり、1日あたり数十億トークンを処理しています。その高いスケーラビリティの秘密は、Vercelの次世代ランタイムであるFluid Computeにあります。
従来のサーバーレスプラットフォームでは、AIプロバイダーの応答を待機している間もCPU料金が課金されていましたが、AIワークロードはその時間の大部分をネットワーク待ちに費やします。VercelのFluid Computeは「Active CPU Pricing」を採用しており、CPUが実際にアクティブに動作しているときにのみCPU料金が課金され、待機中はより低コストなメモリ専用料金が適用されます。これにより、AI Gatewayの実行時間の8%未満でCPU料金を支払うだけで済むため、コストを大幅に削減できます。
Fluid Computeは、サーバーレスの弾力性とデプロイモデルを維持しつつ、基盤となるクラウドリソースを呼び出し間で再利用する「インファンクション並列性」を特徴としています。これにより、ある呼び出しがプロバイダーの応答を待つ間に、同じインスタンス内で別の呼び出しを即座に実行でき、CPU利用率を高く保ち、コストを低く抑えることが可能です。また、インスタンス間でメモリ内のデータやキャッシュが永続化されるため、パフォーマンスも向上します。
AI Gatewayは、Vercelのグローバル配信ネットワーク(Anycastルーティング、PoP、プライベートバックボーン)を活用して、低遅延で高速なリクエストルーティングを実現します。さらに、Redisを使用してグローバルな整合性とクォータ追跡を行い、Fluidのメモリ内キャッシュで局所的な速度を確保しています。
このシステムは、エラー発生時や互換性の問題が生じた際に、自動的に別のプロバイダーやモデルにフォールバックする機能も備えており、アプリケーションコードを変更することなく信頼性を高めます。Vercel Observabilityを通じて、レイテンシ、プロバイダーの健全性、トークン数、コストなどの詳細なメトリクスがリアルタイムで可視化されます。
Vercelは、Fluid Computeの並列処理モデルと分散ネットワークを利用することで、AI Gatewayのようなネットワーク律速型ワークロードに最適化された、効率的で自己最適化された最新のインフラストラクチャを提供しています。これにより、開発者はAIプロバイダーとの連携や基盤となるコンピューティングの複雑さを心配することなく、AI機能を迅速に開発・デプロイできるようになります。このAI Gatewayを支えるアーキテクチャは、すべてのVercelユーザーが利用可能です。