OpenAIが「AIの能力は正しく測れていない可能性がある」と訴える

2026.06.01 12:54
Livedoor.com

AIの性能評価と聞くと、問題を解かせて正答率やスコアを見る「ベンチマーク」を思い浮かべる人が多いはず。しかしOpenAIは、AIがツールを使い、複数の手順を踏み、外部環境に働きかけるようになったことで、単純な「質問に回答させるテスト」だけではAIの能力や安全性を正しく測れなくなっていると説明しています。A shared playbook for trustworthy third party evaluations | OpenAIhttps://openai.com/index/trustworthy-thir…

検索

人気記事

2026.05.05 11:04
2026.06.01 0:50
2026.06.01 0:09
2026.05.31 21:15
2026.06.01 0:00

コメント一覧

まだコメントはありません。

コメント