OpenAIがソフトウェア開発ベンチマークを発表

2025.03.18 16:31
InfoQ.com

OpenAIは、実世界のフリーランスのソフトウェア開発タスクで先進的なAI言語モデルの能力を評価するためのSWE-Lancerベンチマークを発表した。このベンチマークはUpworkから提供された1,400以上のタスクのデータセットを使用しており、その総額は100万ドルである。これらのタスクには独立したコーディング活動と管理的意思決定の両方が含まれ、複雑さと報酬の範囲が実世界のフリーランスのシナリオをシミュレートするように設計されている。 By Daniel Dominguez Translated by Hiro…

検索

人気記事

2025.06.05 11:03
2025.06.05 7:28
2025.06.05 10:57
2025.06.05 9:56
2025.06.05 9:34

コメント一覧

まだコメントはありません。

コメント