OpenAIが「AIの能力は正しく測れていない可能性がある」と訴える
2026.06.01 12:54
Livedoor.com
AIの性能評価と聞くと、問題を解かせて正答率やスコアを見る「ベンチマーク」を思い浮かべる人が多いはず。しかしOpenAIは、AIがツールを使い、複数の手順を踏み、外部環境に働きかけるようになったことで、単純な「質問に回答させるテスト」だけではAIの能力や安全性を正しく測れなくなっていると説明しています。A shared playbook for trustworthy third party evaluations | OpenAIhttps://openai.com/index/trustworthy-thir…
検索
人気記事
コメント一覧
まだコメントはありません。