掲載済み (2025-08-30号)
#276 431文字 • 3分

## OpenAI、「gpt-realtime」を発表 ~同社最新鋭の音声対話(speech-to-speech)モデル

掲載情報

概要

https://forest.watch.impress.co.jp/docs/news/2042856.html

詳細内容

## OpenAI、「gpt-realtime」を発表 ~同社最新鋭の音声対話(speech-to-speech)モデル https://forest.watch.impress.co.jp/docs/news/2042856.html OpenAIは、最新鋭の音声対話モデル「gpt-realtime」と、その基盤となる「Realtime API」の一般提供を開始し、AI音声エージェントの実用化を加速させます。 **Content Type**: News & Announcements **Scores**: Signal:5/5 | Depth:3/5 | Unique:3/5 | Practical:4/5 | Anti-Hype:4/5 **Main Journal**: 82/100 | **Annex Potential**: 76/100 | **Overall**: 76/100 **Topics**: [[音声AIエージェント, Speech-to-Speechモデル, リアルタイムAPI, 多言語対応, ベンチマーク性能]] OpenAIは、同社で最も先進的な音声対話(speech-to-speech)モデル「gpt-realtime」を発表し、昨年10月からパブリックベータ提供されていた「Realtime API」の一般提供を開始しました。この新モデルは、カスタマーサポート、パーソナルアシスタント、教育といった実世界のタスク向けに開発され、複雑な指示の理解、ツールの正確な呼び出し、そしてより自然で表現豊かな音声生成が可能です。特に、非言語的合図の捕捉や文中での言語切り替え、トーンの調整に加え、日本語を含む非英語圏での英数字列検出精度が向上している点は、グローバルなウェブアプリケーション開発において非常に重要です。 なぜこれがウェブアプリケーションエンジニアにとって重要かというと、この進化により、AI音声エージェントの構築が実用レベルに達し、ユーザーエクスペリエンスを劇的に向上させる可能性を秘めているからです。例えば、多言語対応のコールセンターシステムや、より人間らしいインタラクションが可能なパーソナルアシスタント機能、または音声指示による複雑な操作を可能にするアプリケーションなど、新たなサービス設計の幅が広がります。また、「Big Bench Audio」などのベンチマークテストで前モデルを大幅に上回る推論能力と指示順守精度を示していることから、この技術が単なるデモンストレーションではなく、実際の開発に耐えうる堅牢な基盤を提供することが証明されています。Realtime APIの一般提供は、リモートサーバーサポートや画像入力、SIP通話対応といった新機能と共に、これらの高度な音声機能をウェブサービスやエンタープライズシステムへ容易に組み込めることを意味し、開発者はAIを活用した次世代の音声インターフェースを迅速に市場投入できるようになります。