40億パラメータの小規模モデルがCRMタスクで巨大モデルを凌駕：Neurometricによる微調整の実験結果

概要

Neurometric社が、Qwen3-4Bなどの小規模言語モデルをCRM-Arenaベンチマーク向けに微調整し、特定の業務タスクにおいて巨大なフロンティアモデルを上回る精度を達成した手法を公開しました。

詳細内容

Neurometricの研究チームは、Salesforceのリード評価などの実務を模したベンチマーク「CRM-Arena」を用い、60億パラメータ未満の小規模言語モデル（SLM）の性能限界に挑みました。実験は2段階で行われ、フェーズ1ではSQL生成に焦点を当て、LoRAを用いた微調整によりLlama 3.2 3BやGPT-OSSを上回るスコアを記録。フェーズ2では戦略を「最終回答の直接生成」に転換し、BANTフレームワークを用いた制約付き回答生成とGRPOによる最適化を実施しました。その結果、Qwen3-4Bが0.825という高スコアを叩き出し、汎用的な巨大モデルよりも高い専門性を示しました。本報告は、適切なデータセットと微調整手法があれば、エッジでも動作可能なSLMがエンタープライズ領域で極めて有効であることを証明しています。また、合成データの質がモデルの性能に与える影響や、回答空間の制約が精度向上に寄与する重要性についても考察されています。

元記事を読む他のサマリーを見る