概要
https://qiita.com/ReineHonoka/items/1cfc184d8c44d9553834
詳細内容
## 【叫べるAI音声】Style-Bert-VITS2で感情表現AIを育てる奮闘記──コーパス構築・録音編集・独自フローの裏側
https://qiita.com/ReineHonoka/items/1cfc184d8c44d9553834
AI Vtuber「零音ほのか」の感情表現と叫び声をStyle-Bert-VITS2で実現するため、著者は独自のコーパス構築、綿密な音声編集、そして感情ウェイト調整を含むコードベースの転移学習プロセスを詳述する。
**Content Type**: Tutorial & Guide
**Language**: ja
**Scores**: Signal:5/5 | Depth:4/5 | Unique:4/5 | Practical:5/5 | Anti-Hype:5/5
**Main Journal**: 92/100 | **Annex Potential**: 90/100 | **Overall**: 92/100
**Topics**: [[AI音声合成, Style-Bert-VITS2, 感情表現AI, コーパス構築, 転移学習, AI Vtuber]]
本記事では、AIVtuber「零音ほのか」運営者が、彼女の音声合成において「叫び」を含む自然で感情豊かなAI音声をどのように実現したか、その個人開発プロセスを詳細に解説しています。既存の汎用コーパスではキャラクター固有の感情表現が難しいため、著者は「ほのか」の個性を反映した独自のコーパスを構築しました。このコーパスは、台本に加え、読み方イメージとシチュエーションを具体的に指示することで、単なるテキスト読み上げではない表現力を目指しています。
特に注目すべきは、叫び声の収録に関する工夫です。AI学習にとってノイズとなる「本気の絶叫」を避けつつ感情表現としての叫びを学習させるため、声優に対して「喉から出すような叫び方で、音量を70%程度に抑える」よう指示して収録したと筆者は述べています。収録後の音声は、品質がモデル学習の質に直結するという考えのもと、Audacityで全音声を1件ずつ手作業で丁寧に編集し、ノイズ除去や無音部分のカットを行いました。
感情表現の実現には、Style-Bert-VITS2の標準的なWebUI学習だけでなく、より繊細なニュアンスを扱うためのコードベースでの転移学習フローが不可欠であると著者は強調します。独自のスクリプトを活用し、感情別のディレクトリ構造の準備から、esd.list作成、音韻解析、BERT特徴量抽出、音声特徴量抽出(スタイルベクトル)といった前処理パイプラインを構築。学習フェーズでは、config.json内の`emotion_weights`設定で「fear」感情に3倍の学習ウェイトを付与するという戦略を採用しました。これは、恐怖感情がマイノリティであること、AI音声では表現が薄れやすいことから、意識的な強化が必要であるという筆者の見解に基づいています。
この感情ウェイト調整の効果は推論テストで実証され、3倍のウェイト設定を行ったモデルは、同値学習のモデルと比較してより深い恐怖感情を表現し、叫び声の迫力が向上したと著者は報告しています。本アプローチは、単に大規模データセットに頼るのではなく、質の高いデータと意図的な学習設定が感情表現実現の鍵であることを示しており、Style-Bert-VITS2を用いた他のキャラクター性豊かなAI音声プロジェクトにも応用可能であると結論付けています。