## Playwright × 生成AI でVRTのバグ報告を自然言語化してみたら実用的だった話

概要

https://zenn.dev/ivry/articles/41d47e1d7448cc

詳細内容

## Playwright × 生成AI でVRTのバグ報告を自然言語化してみたら実用的だった話 https://zenn.dev/ivry/articles/41d47e1d7448cc Playwrightと生成AIを組み合わせることで、Visual Regression Testingにおける差分検出とバグ報告の自然言語化を実現し、運用コストを大幅に削減した。 **Content Type**: 📖 Tutorial & Guide **Scores**: Signal:5/5 | Depth:4/5 | Unique:4/5 | Practical:5/5 | Anti-Hype:5/5 **Main Journal**: 92/100 | **Annex Potential**: 90/100 | **Overall**: 92/100 **Topics**: [[Visual Regression Testing, 生成AI, Playwright, 自動バグ報告, プロンプトエンジニアリング]] 既存のVisual Regression Testing (VRT)はピクセル単位の差分検出に優れる一方、それが本当にバグなのか、あるいは意図的な変更なのかを人間が判断する手間や、マスク設定・閾値調整といった地道なメンテナンスコストが課題だった。本記事は、このVRTの課題を解決するため、Playwrightで取得したスクリーンショットの差分を生成AIが分析し、自然言語でバグ報告を自動生成してSlack通知する実用的な仕組みを構築・検証している。このアプローチの核心は、ベース画像と現行画像をマルチモーダル生成AI（Gemini 2.5 Flash, GPT-4.1 miniなど）に入力し、詳細なプロンプトによって「ERROR」「WARN」「無視」の3段階で差分を分類し、その理由を具体的な日本語で説明させる点にある。例えば、ブランドカラーの変更やレイアウト崩壊、ローディング残存をERROR、軽微なテキスト変更やアイコン変更をWARNと定義することで、従来目視で行っていた差分原因の特定とバグかどうかの判断を大幅に効率化できる。検証では、Gemini 2.5 FlashとGPT-4.1 miniが高い精度で期待通りの差分を検出し、その自然言語による説明がバグ報告の判読性を飛躍的に向上させることが示された。特に、「ヘッダーのロゴテキストが『IVRy』から『アイブリー』に変更されている」といった具体的な報告は、QAエンジニアや開発者が瞬時に変更の意図を把握し、バグか否かの判断時間を劇的に短縮する。この仕組みは、VRTにおける誤検知や見逃しがちなレスポンシブデザインの問題にも有効で、プロンプト調整による判定基準の柔軟な変更も可能だ。Webアプリケーションエンジニアにとっては、QAプロセスの自動化と効率化を実現し、より迅速なフィードバックループと高品質なリリースを可能にする具体的なソリューションとして非常に価値が高い。将来的には、UI/UXやアクセシビリティチェックなど、視覚的な品質保証全般への応用も期待される。

元記事を読む他のサマリーを見る