AIエージェントが試験で一生懸命「カンニング」していることが発覚

2026.05.17 9:00

Livedoor.com

ソフトウェア開発向けのAIエージェントを作るスタートアップ企業のPoolsideが、「AIのベンチマークは評価の抜け穴を突く不正最適化が起きており、ベンチマーク設計そのものを見直す必要がある」と指摘しています。AIエージェントが効率良くカンニングする方法を学ぶことで、あるトレーニング実験でOpenAIが推奨するベンチマーク「SWE-Bench Pro」のスコアが、週末の間に約20％も不自然に上昇したそうです。Through the looking glass of benchmark hacking - Pool…

記事全文へ