OpenAIがソフトウェア開発ベンチマークを発表

2025.03.18 16:31
InfoQ.com

OpenAIは、実世界のフリーランスのソフトウェア開発タスクで先進的なAI言語モデルの能力を評価するためのSWE-Lancerベンチマークを発表した。このベンチマークはUpworkから提供された1,400以上のタスクのデータセットを使用しており、その総額は100万ドルである。これらのタスクには独立したコーディング活動と管理的意思決定の両方が含まれ、複雑さと報酬の範囲が実世界のフリーランスのシナリオをシミュレートするように設計されている。 By Daniel Dominguez Translated by Hiro…

検索

人気記事

2023.10.21 12:24
2023.10.19 11:08
2023.10.19 11:20
2023.11.05 14:16
2023.10.19 9:56

コメント一覧

まだコメントはありません。

コメント