## オープンソースのTTSはまだ実用に耐えない

概要

https://duarteocarmo.com/blog/tts-still-sucks

詳細内容

## オープンソースのTTSはまだ実用に耐えない https://duarteocarmo.com/blog/tts-still-sucks **Original Title**: TTS still sucks オープンソースのテキスト読み上げ（TTS）モデルをブログのポッドキャスト化に適用した著者は、音声クローン、長文生成、感情表現の制御における深刻な限界を指摘し、まだ実用的ではないと断言する。 **Content Type**: 💭 Opinion & Commentary **Language**: en **Scores**: Signal:4/5 | Depth:4/5 | Unique:4/5 | Practical:4/5 | Anti-Hype:5/5 **Main Journal**: 84/100 | **Annex Potential**: 85/100 | **Overall**: 84/100 **Topics**: [[テキスト読み上げ, オープンソースAI, 音声クローニング, ポッドキャスト生成, 開発ワークフロー]] Duarte O.Carmo氏は、自身のブログ記事をポッドキャスト化する試みの中で、オープンソースのテキスト読み上げ（TTS）モデルが依然として実用に耐えないという強い意見を述べている。著者は「音声クローンに利用するモデルはオープンであるべき」という独自のルールを設け、過去にF5-TTSを使用していたが、より優れたモデルを求めて検証を行った。 Artificial AnalysisのTTSリーダーボードを参照しつつも、トップモデルであるKokoroなどが音声クローンをサポートしていないという課題に直面した。Fish AudioのS1-miniのようなモデルでは、感情表現のマーカーやポーズの制御が不安定であるか、またはクローズドソース版でしか利用できないことが判明した。さらに、Chatterboxを含む多くのオープンソースTTSモデルには共通の大きな制約があり、1,000〜2,000文字を超える長文を生成しようとすると、声が不自然になったり、制御不能な速さになったりする「幻覚」現象が発生すると著者は指摘する。これにより、細かな制御が非常に困難になっている。著者の現在のポッドキャスト生成ワークフローは、まずRSSフィードからテキストを抽出し、LLMで読みやすく前処理を行う。その後、LLMがトランスクリプト、要約、ショーノート用のリンクを生成し、トランスクリプトをチャンクに分割。それを並行して動作するModalコンテナ群に送り、Chatterbox TTSモデルで音声を生成している。生成されたWAVファイルは結合され、S3バケットでホストされる。改善点として、ポッドキャストは現在Spotifyでも配信され、ショーノートにはクリック可能なリンクが含まれるようになった。しかし、ChatterboxモデルはF5-TTSよりは優れているものの、生成音声の長さ制限と制御の欠如というオープンソース音声クローンモデルに共通する問題は依然として存在すると著者は強調する。最終的に、TTS技術は進歩したものの、プロプライエタリなシステムと比較すると、オープンソース版はまだはるかに劣るとの結論に至っている。このRSSからポッドキャストへのパイプラインはGitHubでオープンソースとして公開されている。

元記事を読む他のサマリーを見る