掲載済み (2026-03-14号)
#096 157文字 • 1分

M5Stack CoreS3とAzure AI Realtime API (gpt-realtime-1.5) を使った音声対話ロボット「スタックチャン」の製作記録

原題: M5Stack CoreS3 x gpt-realtime-1.5 - (スタックチャンはじめる)

日本語

掲載情報

概要

M5Stack CoreS3とAzure OpenAIの最新モデル「gpt-realtime-1.5」を連携させ、中継サーバを用いたWebSocket通信により、低遅延な音声対話と感情表現を可能にするAIロボットの製作プロセスを解説した記事。

詳細内容

本記事は、IoTデバイスのM5Stack CoreS3とAzure OpenAIのRealtime API(gpt-realtime-1.5)を組み合わせ、音声対話型ロボット「スタックチャン」を構築するチュートリアルです。ハードウェア(ESP32-S3)のメモリ制約や、マイクとスピーカーが同一のI2Sバスを共有するという物理的な制約を解決するため、Node.jsによる中継サーバを導入した3層構造のシステムアーキテクチャを採用しています。技術的な核心として、1.5MBのリングバッファを用いた音声データの平滑化、WebSocketにおけるバックプレッシャー制御、およびAIのツール呼び出し機能(Function Calling)を利用したアバターの表情制御の実装方法が詳細に解説されています。特にM5UnifiedのplayRaw()関数の挙動に起因する音声ノイズ問題の解決など、組み込み開発特有のトラブルシューティングが豊富に含まれており、実用性の高いガイドとなっています。