OpenAIがソフトウェア開発ベンチマークを発表
2025.03.18 16:31
InfoQ.com

OpenAIは、実世界のフリーランスのソフトウェア開発タスクで先進的なAI言語モデルの能力を評価するためのSWE-Lancerベンチマークを発表した。このベンチマークはUpworkから提供された1,400以上のタスクのデータセットを使用しており、その総額は100万ドルである。これらのタスクには独立したコーディング活動と管理的意思決定の両方が含まれ、複雑さと報酬の範囲が実世界のフリーランスのシナリオをシミュレートするように設計されている。 By Daniel Dominguez Translated by Hiro…
検索
人気記事
コメント一覧
まだコメントはありません。