OpenAIがソフトウェア開発ベンチマークを発表

2025.03.18 16:31
InfoQ.com

OpenAIは、実世界のフリーランスのソフトウェア開発タスクで先進的なAI言語モデルの能力を評価するためのSWE-Lancerベンチマークを発表した。このベンチマークはUpworkから提供された1,400以上のタスクのデータセットを使用しており、その総額は100万ドルである。これらのタスクには独立したコーディング活動と管理的意思決定の両方が含まれ、複雑さと報酬の範囲が実世界のフリーランスのシナリオをシミュレートするように設計されている。 By Daniel Dominguez Translated by Hiro…

検索

人気記事

2023.11.16 9:40
2023.10.18 8:12
2024.03.29 10:01
2025.02.21 6:42
2023.11.25 13:35

コメント一覧

まだコメントはありません。

コメント