概要
https://boston.conman.org/2025/12/02.1
詳細内容
## AIコードドキュメント生成ツール「DeepWiki」の検証と課題
https://boston.conman.org/2025/12/02.1
**Original Title**: Roko's dancing basilisk
著者は、AIベースのドキュメント生成ツール「DeepWiki」を自身のレガシーコードベースに適用し、その精度と実用性について詳細な評価を行った。
**Content Type**: ⚙️ Tools
**Language**: en
**Scores**: Signal:5/5 | Depth:4/5 | Unique:5/5 | Practical:4/5 | Anti-Hype:5/5
**Main Journal**: 90/100 | **Annex Potential**: 93/100 | **Overall**: 92/100
**Topics**: [[LLMドキュメント生成, レガシーコード, コードベース解析, 開発者ツール評価, AIの限界]]
筆者は、AIによるコード生成には懐疑的だが、ドキュメント生成については未検証だったため、DeepWikiを試した経験を共有している。まず26年間メンテナンスしている7,400行のC言語リポジトリ「mod_blog」に適用したところ、30ページ近いドキュメントが生成され、全体概要は印象的で、コードフローやストレージレイアウトを正確に把握していたと評価している。特に、`cmd_cgi_get_today()`関数が年をまたいでその月のエントリを返すことまで言及されており、自身のコード内のバグを2点発見できた点も高く評価している。しかし、「システムは3層で構成される」としながら、付属の図には5層が示されているなど、いくつかの小さな不正確さも指摘している。
次に、より複雑な9,500行のC言語アセンブラ「a09」にDeepWikiを適用したところ、mod_blogよりもはるかに多くの深刻な問題が明らかになった。エラー分類の欠落、デッドコード検出ロジックの誤解、出力ファイル削除条件の間違い、Markdownの解釈ミス、そして特にバックエンドマトリックス表が完全に誤っており、異なるページで異なる形式で表示されるなど、一貫性の欠如が目立った。著者は、a09の循環的複雑度がmod_blogよりも高く、それがLLMのコンテキストウィンドウの限界を押し上げ、デタラメな情報(confabulations)を生んだのではないかと推測している。
DeepWikiのウェブインターフェース自体にも、スクロールバーの欠如、図のサイズと一貫性のなさ、過剰な情報繰り返しといった不満が述べられている。一方で、各セクション末尾にソースコードへのリンクがある点は評価されている。
総じて、筆者は、LLMによるコード生成よりは不快ではないものの、DeepWikiは「不慣れなコードベースに解放されるには、まだ不正確すぎる」と結論付けている。また、コード変更に伴うドキュメントの維持管理(更新のマージや修正の繰り返し)の課題も指摘し、生成されたドキュメントは「コード内の悪いコメントよりも悪質になる可能性がある」と懸念を示している。このツールが、ドキュメントの少ないレガシーコード向けに謳われているにもかかわらず、中程度の複雑さのコードベースでこの程度のパフォーマンスであるならば、大規模で複雑なコードベースへの適用はさらに困難であるとの見解を述べている。