## Qwen3-Omni-Flash-2025-12-01：マルチモーダル理解と音声生成の大幅強化

概要

https://qwen.ai/blog?id=qwen3-omni-flash-20251201

詳細内容

## Qwen3-Omni-Flash-2025-12-01：マルチモーダル理解と音声生成の大幅強化 https://qwen.ai/blog?id=qwen3-omni-flash-20251201 **Original Title**: Qwen3-Omni-Flash-2025-12-01：Hear You. See You. Follow Smarter! Alibaba Qwen チームは、テキスト・画像・音声・動画を統合処理し、リアルタイムでテキストと自然な音声を同時生成できる次世代マルチモーダル大規模モデル Qwen3-Omni-Flash-2025-12-01 をリリースした。 **Content Type**: 🤖 Models **Language**: en **Scores**: Signal:5/5 | Depth:5/5 | Unique:4/5 | Practical:5/5 | Anti-Hype:5/5 **Main Journal**: 95/100 | **Annex Potential**: 88/100 | **Overall**: 92/100 **Topics**: [[マルチモーダルAI, 音声合成, 音声認識, Qwen, リアルタイムAI, 多言語対応]] Qwen3-Omni-Flash-2025-12-01 は、前バージョンの Qwen3-Omni-Flash から大幅にアップグレードされた次世代ネイティブマルチモーダルモデルです。テキスト、画像、音声、動画という複数の入力モダリティをシームレスに処理し、リアルタイムストリーミング応答でテキストと自然な音声を同時生成できます。 **主な改善点:** 1. **音声・映像インタラクション体験の大幅向上**: カジュアルな口語シナリオで見られた「知能低下」問題を効果的に解決し、マルチターン音声・映像会話の安定性と一貫性が大幅に向上しました。 2. **システムプロンプト制御の強化**: システムプロンプトの完全カスタマイズに対応し、ペルソナスタイル（甘い、クール、アニメ風など）、口語的トーン、出力長制限など、あらゆる詳細を細かく調整できます。 3. **多言語対応の信頼性向上**: 119言語でのテキストベース対話、19言語での音声認識、10言語での音声合成をサポート。前バージョンで見られた言語追従の不安定性を完全に解消しました。 4. **より人間らしく流暢な音声合成**: 韻律の適応制御を大幅に強化し、緩慢でロボット的な音声を排除。テキストコンテキストに基づいて話速、ポーズ、イントネーションをインテリジェントに調整し、実際の人間の音声に近い表現力豊かで自然な音声出力を実現しました。 **客観的ベンチマークでのパフォーマンス向上:** - **テキスト理解・生成**: 論理推論（ZebraLogic +5.6）、コード生成（LiveCodeBench-v6 +9.3、MultiPL-E +2.7）、総合的な文章品質（WritingBench +2.2）で大幅向上 - **音声理解**: Fleurs-zh での単語誤り率が大幅に低下し、VoiceBench で +3.2 の改善。実世界の対話シナリオでの音声言語理解が強化されました - **音声合成**: 複数言語（特に中国語と多言語コンテキスト）で、韻律、ペーシング、ポーズが自然な人間の音声により近い、高品質で人間らしい音声生成を実現 - **画像理解**: 視覚推論タスクで画期的なパフォーマンス向上（MMMU +4.7、MMMU-Pro +4.8、MathVision_full +2.2）。図表から数学的図形まで、複雑な視覚コンテンツを「見て」、解釈し、推論する能力が強化されました - **動画理解**: 動画意味理解（MLVU +1.6）が着実に改善し、音声・映像の同期がより緊密になり、シームレスなリアルタイム動画会話の堅固な基盤を構築 **今後の展開:** Qwen チームは、マルチスピーカー ASR、動画 OCR、音声・動画の能動学習、エージェントベースワークフローと関数呼び出しのサポート強化など、複数の軸でモデルをさらに進化させる予定です。このアップグレードにより、Qwen3-Omni-Flash-2025-12-01 は「Hear You. See You. Follow Smarter.」というビジョンを真に体現し、これまで以上に自然で正確、鮮やかな AI インタラクション体験を提供します。Web アプリケーションエンジニアにとって、このモデルはリアルタイム音声・動画対話機能を備えたアプリケーション開発の新たな可能性を開きます。

元記事を読む他のサマリーを見る