AIエージェントが試験で一生懸命「カンニング」していることが発覚
2026.05.17 9:00
Livedoor.com
ソフトウェア開発向けのAIエージェントを作るスタートアップ企業のPoolsideが、「AIのベンチマークは評価の抜け穴を突く不正最適化が起きており、ベンチマーク設計そのものを見直す必要がある」と指摘しています。AIエージェントが効率良くカンニングする方法を学ぶことで、あるトレーニング実験でOpenAIが推奨するベンチマーク「SWE-Bench Pro」のスコアが、週末の間に約20%も不自然に上昇したそうです。Through the looking glass of benchmark hacking - Pool…
検索
人気記事
コメント一覧
まだコメントはありません。