掲載済み (2025-08-30号)
#267 449文字 • 3分

## OpenAI、新たな音声モデル「gpt-realtime」を発表--「Realtime API」も機能強化

掲載情報

概要

https://japan.zdnet.com/article/35237318/

詳細内容

## OpenAI、新たな音声モデル「gpt-realtime」を発表--「Realtime API」も機能強化 https://japan.zdnet.com/article/35237318/ OpenAIは、AIエージェントの対話体験を革新する新音声モデル「gpt-realtime」と、機能強化された「Realtime API」の一般提供を開始した。 **Content Type**: 📰 News & Announcements **Scores**: Signal:4/5 | Depth:3/5 | Unique:2/5 | Practical:5/5 | Anti-Hype:3/5 **Main Journal**: 72/100 | **Annex Potential**: 66/100 | **Overall**: 68/100 **Topics**: [[音声AI, AIエージェント, マルチモーダルAI, API強化, リアルタイム処理]] OpenAIは、AIエージェントとの対話をよりスムーズで自然なものにするため、新たな音声モデル「gpt-realtime」と機能強化された「Realtime API」の一般提供を開始しました。これは、ウェブアプリケーション開発者にとって、より高度な音声ベースのAI体験を構築する上で画期的な進展です。 更新されたRealtime APIは、リモートModel Context Protocol(MCP)サーバーの導入により、AIエージェントと接続されたアプリ間のシームレスなアクション実行を可能にします。MCPがオープンスタンダードである点は、接続の確実性とユーザーのデータプライバシー保護を重視する開発者にとって重要です。さらに、画像入力への対応とSession Initiation Protocol(SIP)による電話発信サポートが追加され、音声エージェントがより豊富な情報源と連携し、複雑なユースケースに対応できるようになります。 新モデル「gpt-realtime」は、OpenAIが「最も先進的で実運用に対応した」と位置づけるSpeech-to-Speechモデルです。このモデルは、複雑な指示への追従性、関数呼び出しの精度、話し言葉での言語切り替え能力が向上しており、多言語対応や複雑なタスク実行を要するアプリケーション開発に直接貢献します。デモでは、抑揚による感情表現や、プロンプトへの矛盾した操作(ジェイルブレーク)に対する冷静な対応が示され、その人間らしい対話能力と堅牢性が強調されました。写真分析を通じた会話も可能で、エージェントのマルチモーダルな理解力を大きく広げます。 OpenAIは音声を「次なるメディア」と捉えており、今回のリリースは開発者がユーザーのタスクを正確かつ自然な対話で支援するAIエージェントを、より簡単に、かつ信頼性高く構築するための強力なツールを提供します。これにより、ユーザーエクスペリエンスの質が飛躍的に向上し、AIを活用した新しいアプリケーションやサービスの創出が加速するでしょう。開発者はPlaygroundでこの新機能を試すことができます。