## Metaの新型AIモデル「SAM Audio」がオーディオ編集を劇的に変える

概要

https://about.fb.com/news/2025/12/our-new-sam-audio-model-transforms-audio-editing/

詳細内容

## Metaの新型AIモデル「SAM Audio」がオーディオ編集を劇的に変える https://about.fb.com/news/2025/12/our-new-sam-audio-model-transforms-audio-editing/ **Original Title**: Our New SAM Audio Model Transforms Audio Editing テキスト、視覚情報、時間指定という複数のプロンプトを用いて、複雑な混合音源から特定の音を直感的に分離・抽出できる初の統合型AIモデルをMetaが発表しました。 **Content Type**: 📰 ニュース・告知 **Language**: en **Scores**: Signal:5/5 | Depth:3/5 | Unique:4/5 | Practical:4/5 | Anti-Hype:4/5 **Main Journal**: 85/100 | **Annex Potential**: 81/100 | **Overall**: 80/100 **Topics**: [[Audio Segmentation, AI Model, Meta, Media Editing, Open Source]] Metaは、画像セグメンテーションで高い評価を得た「Segment Anything」シリーズの最新作として、音の分離に特化したAIモデル「SAM Audio」を公開した。本モデルは、複雑な混合音の中から特定の音を分離・抽出するプロセスを劇的に簡略化するものであり、オーディオおよびビデオ編集のワークフローを根本から変える可能性を秘めている。著者は、SAM Audioが「人が自然に音を認識し、操作する感覚」をミラーリングした初の統合モデルであると主張している。具体的には、以下の3種類のプロンプト（指示方法）を単独、あるいは組み合わせて使用できる点が最大の特徴だ。 1. **テキストプロンプト**: 「犬の鳴き声」や「歌声」と入力するだけで対象の音を抽出する。 2. **視覚プロンプト**: ビデオ内の特定の人物やオブジェクトをクリックすることで、その対象が発する音のみを分離する。 3. **スパンプロンプト**: 業界初の試みとして、タイムライン上で特定の時間範囲を指定してターゲット音を特定する。エンジニアの視点から見てこの発表が重要な理由は、これまで用途ごとに断片化されていたオーディオ分離技術が、一つの強力な基盤モデルに統合された点にある。これまではノイズ除去、楽器分離、音声抽出などのタスクごとに異なるモデルやツールを使い分ける必要があったが、SAM Audioはそれらを一貫したインターフェースで提供する。これにより、ポッドキャストの編集、音楽制作、映画のポストプロダクション、さらにはアクセシビリティ向上のためのリアルタイム音声処理など、Webアプリケーションにおける高度なメディア処理機能の実装コストが大幅に低下することが期待される。筆者によれば、SAM Audioはすでに最先端のパフォーマンスを実現しており、クリエイティブなメディアツールの次世代基盤として位置づけられている。現在、モデルのダウンロードが可能であるほか、「Segment Anything Playground」にてオンラインで機能を試すことができる。自社のサービスに高度なオーディオ編集機能を組み込みたい、あるいはAIによるメディア解析を強化したい開発者にとって、検証すべき重要なアセットが登場したと言える。

元記事を読む他のサマリーを見る