概要
https://zenn.dev/ekusiadadus/articles/ek-transcript-stepfunctions-1dollar
詳細内容
## 月額約2ドルで最大8時間の動画を話者分離・文字起こし・LLM分析するAWSパイプライン
https://zenn.dev/ekusiadadus/articles/ek-transcript-stepfunctions-1dollar
著者は、ユーザーインタビュー動画を話者分離、高精度文字起こし、LLMによる構造化分析まで行うフルサーバーレスAWSパイプラインを、月額固定費を最小限に抑えつつ8時間動画を約2.3ドルで処理可能にする設計と実装の全貌を詳細に解説する。
**Content Type**: Tutorial & Guide
**Language**: ja
**Scores**: Signal:5/5 | Depth:5/5 | Unique:5/5 | Practical:5/5 | Anti-Hype:5/5
**Main Journal**: 65/100 | **Annex Potential**: 65/100 | **Overall**: 100/100
**Topics**: [[AWS Step Functions, Serverless Architecture, 音声認識, LLM連携, コスト最適化]]
この記事は、ユーザーインタビュー動画の分析において既存の商用サービスやAWS Transcribeが高額な固定費や精度不足といった課題を抱えていることを受け、筆者が月額固定費を極限まで抑えつつ、長時間動画に対応する高精度なサーバーレスパイプラインを自作した経緯と詳細な技術解説を提供しています。
主要な要件として「月額固定費ゼロ」「最大8時間の長時間動画対応」「高精度な話者分離と日本語文字起こし」「LLMによる要約・分析」「低コスト(1動画あたり約1ドル)」「フルサーバーレス」が挙げられています。システムはAWS Step Functionsをワークフロー管理に、AWS Lambdaを各処理の実行環境に用いたフルサーバーレス構成で、Amazon S3への動画アップロードをトリガーにパイプラインが起動します。
技術選定では、話者分離に「pyannote.audio 3.1」、文字起こしに「faster-whisper」、LLM分析に「gpt-5-mini」を採用し、それぞれAWS TranscribeやOpenAI Whisper API、Claudeといった代替案と比較して精度とコスト効率の優位性を強調しています。特に、LambdaのコンテナイメージにMLモデルを含めることでコールドスタート時の問題を解決し、固定費がかかるECS Fargateを避ける選択をしています。
このパイプラインの最大の特徴はコスト効率です。Secrets Manager、ECR、CloudWatch Logsなど最小限のサービス利用により、月額固定費を約1.5〜2ドルに抑制。8時間の動画処理を約2.3ドル(無料枠なし、x86 Lambdaの場合)で完了させることができ、AWS Transcribeと比較して約5倍のコスト効率を実現しています。
実装における具体的な課題とその解決策も詳述されています。例えば、Step Functionsの256KBペイロード制限に対しては、Map Stateの結果を破棄し、S3経由でデータを連携することで回避。PyTorch 2.6+での`torch.load`問題には、pyannote.audioのインポート前にモンキーパッチを適用して対応しています。長時間動画の処理を実現するため、音声を8分チャンクと30秒のオーバーラップで分割し、Map Stateで並列処理しつつ、埋め込みベクトルを用いたクラスタリングで話者をグローバルに統一する工夫が凝らされています。
著者は今後の展望として、Google Meetの自動録画APIとの連携によるさらなる自動化を計画しており、その設計ドキュメントも公開しています。このソリューションは、コストを抑えながら高度な音声・動画分析機能を実現したいウェブアプリケーションエンジニアにとって、非常に実践的な知見と具体的な実装パターンを提供するものです。