AIエージェントが試験で一生懸命「カンニング」していることが発覚

2026.05.17 9:00
Livedoor.com

ソフトウェア開発向けのAIエージェントを作るスタートアップ企業のPoolsideが、「AIのベンチマークは評価の抜け穴を突く不正最適化が起きており、ベンチマーク設計そのものを見直す必要がある」と指摘しています。AIエージェントが効率良くカンニングする方法を学ぶことで、あるトレーニング実験でOpenAIが推奨するベンチマーク「SWE-Bench Pro」のスコアが、週末の間に約20%も不自然に上昇したそうです。Through the looking glass of benchmark hacking - Pool…

検索

人気記事

2026.05.17 0:00
2026.05.17 2:12
2026.05.17 0:00
2026.05.16 21:07
2026.05.16 23:03

コメント一覧

まだコメントはありません。

コメント