OpenAIが「AIの能力は正しく測れていない可能性がある」と訴える

2026.06.01 12:54

Livedoor.com

AIの性能評価と聞くと、問題を解かせて正答率やスコアを見る「ベンチマーク」を思い浮かべる人が多いはず。しかしOpenAIは、AIがツールを使い、複数の手順を踏み、外部環境に働きかけるようになったことで、単純な「質問に回答させるテスト」だけではAIの能力や安全性を正しく測れなくなっていると説明しています。A shared playbook for trustworthy third party evaluations | OpenAIhttps://openai.com/index/trustworthy-thir…

記事全文へ

検索

人気記事

アンソロピック、評価額141兆円でOpenAI超えへ──人類史上最大の資金調達ラウンド（Forbes JAPAN） - Yahoo!ニュース

2026.05.05 11:04

Axe Compute 成功簽下一份為期五年、總值 15 億美元的專屬 AI 基礎設施合約，令 2026 年的已簽約合約總值超越 30 億美元

2026.07.28 0:27

コメント一覧

まだコメントはありません。