## Voxtral Transcribe 2：音速で書き起こすMistral AIの次世代音声モデル

概要

https://mistral.ai/news/voxtral-transcribe-2

詳細内容

## Voxtral Transcribe 2：音速で書き起こすMistral AIの次世代音声モデル https://mistral.ai/news/voxtral-transcribe-2 **Original Title**: Voxtral transcribes at the speed of sound. 提供を開始する：Mistral AIが発表した次世代音声文字起こしモデル「Voxtral Transcribe 2」は、高精度な話者分離と200ms以下の超低遅延を両立している。 **Content Type**: 📰 News & Announcements **Language**: en **Scores**: Signal:5/5 | Depth:3/5 | Unique:4/5 | Practical:5/5 | Anti-Hype:4/5 **Main Journal**: 89/100 | **Annex Potential**: 85/100 | **Overall**: 84/100 **Topics**: [[Speech-to-Text, Mistral AI, Voxtral, Open Weights, リアルタイム音声処理]] Mistral AIが次世代の音声文字起こしモデル「**Voxtral Transcribe 2**」をリリースした。本ファミリーは、バッチ処理に最適化された「**Voxtral Mini Transcribe V2**」と、ライブ配信等に適した低遅延の「**Voxtral Realtime**」で構成される。特に後者は **Apache 2.0** ライセンスの下で **Open Weights** として公開され、エッジ環境でのプライバシーを重視した実行も可能だ。主な機能として、高精度な **話者分離 (Diarization)**、単語レベルのタイムスタンプ、特定の固有名詞を優先させる **Context Biasing** を備える。日本語を含む13言語に対応し、**FLEURSベンチマーク**では競合を凌駕する精度を記録しながら、API価格は業界最安級の0.003ドル/分に設定されている。リアルタイム音声エージェントや、コストパフォーマンスの高い文字起こし基盤を自前で構築したいWebアプリケーションエンジニアにとって、有力な選択肢となるだろう。

元記事を読む他のサマリーを見る