OpenAIがソフトウェア開発ベンチマークを発表

2025.03.18 16:31
InfoQ.com

OpenAIは、実世界のフリーランスのソフトウェア開発タスクで先進的なAI言語モデルの能力を評価するためのSWE-Lancerベンチマークを発表した。このベンチマークはUpworkから提供された1,400以上のタスクのデータセットを使用しており、その総額は100万ドルである。これらのタスクには独立したコーディング活動と管理的意思決定の両方が含まれ、複雑さと報酬の範囲が実世界のフリーランスのシナリオをシミュレートするように設計されている。 By Daniel Dominguez Translated by Hiro…

検索

人気記事

2024.07.16 19:00
2024.06.16 23:51
2024.03.14 20:05
2024.03.21 23:29
2025.07.19 22:21

コメント一覧

まだコメントはありません。

コメント