M5Stack CoreS3とAzure AI Realtime API (gpt-realtime-1.5) を使った音声対話ロボット「ｽﾀｯｸﾁｬﾝ」の製作記録

概要

M5Stack CoreS3とAzure OpenAIの最新モデル「gpt-realtime-1.5」を連携させ、中継サーバを用いたWebSocket通信により、低遅延な音声対話と感情表現を可能にするAIロボットの製作プロセスを解説した記事。

詳細内容

本記事は、IoTデバイスのM5Stack CoreS3とAzure OpenAIのRealtime API（gpt-realtime-1.5）を組み合わせ、音声対話型ロボット「ｽﾀｯｸﾁｬﾝ」を構築するチュートリアルです。ハードウェア（ESP32-S3）のメモリ制約や、マイクとスピーカーが同一のI2Sバスを共有するという物理的な制約を解決するため、Node.jsによる中継サーバを導入した3層構造のシステムアーキテクチャを採用しています。技術的な核心として、1.5MBのリングバッファを用いた音声データの平滑化、WebSocketにおけるバックプレッシャー制御、およびAIのツール呼び出し機能（Function Calling）を利用したアバターの表情制御の実装方法が詳細に解説されています。特にM5UnifiedのplayRaw()関数の挙動に起因する音声ノイズ問題の解決など、組み込み開発特有のトラブルシューティングが豊富に含まれており、実用性の高いガイドとなっています。

元記事を読む他のサマリーを見る