最高でも回答精度9%程度だった「人類最後の試験」でOpenAIのDeep researchが26%以上を記録

2025.02.05 10:40
Livedoor.com

AIの性能を定量化する評価試験のうち「これまでで最も難しい」とされる「人類最後の試験(Humanity's Last Exam)」について、OpenAIのAIエージェント「Deep research」が早くも26.6%という高いスコアを記録したことがわかりました。試験の公開から10日もたたずに最高スコアが183%増加したことになります。OpenAI's Deep Research smashes records for the world's hardest AI exam, with ChatGPT o3-mi…

検索

人気記事

2024.03.06 10:20
2025.02.21 6:42
2023.11.16 9:40
2023.11.22 14:26
2023.11.25 13:35

コメント一覧

まだコメントはありません。

コメント