概要
LLMのコーディング失敗の多くは知能不足ではなくツール境界(ハーネス)の設計不備にあり、行ハッシュを用いた新手法「hashline」により、モデルを書き換えることなく最大10倍の精度向上を実証した。
詳細内容
セキュリティ研究者のCan Bölük氏による本記事は、AIコーディングエージェントにおける「ハーネス(モデルとエディタを繋ぐインターフェース)」の重要性を説いています。著者は、既存の`apply_patch`(diff形式)や`str_replace`(文字列置換)が、LLMにとって構文的・空間的な負担が大きく、失敗の主因になっていると指摘します。これに対する解決策として、各行に短いハッシュIDを付与して編集箇所を特定する「hashline」手法を提案しました。16種類のモデルを用いたベンチマークの結果、Gemini 1.5 Flashで成功率が5ポイント向上、Grok Code Fast 1に至っては6.7%から68.3%へと飛躍的な改善が見られました。また、出力トークン数も大幅に削減されることが確認されています。記事の後半では、研究目的での利用を制限するGoogleやAnthropicなどのAIベンダーの閉鎖的な姿勢を批判し、モデルそのものよりもツールの境界(ハーネス)におけるオープンなエンジニアリングこそが、実用的なAIコーディングの鍵であると主張しています。