DeepSeek-R1 の technical report を読んでみた

2025.01.24 21:28
Github.io

TL;DR 数学やコーディングなど高度な reasoning タスクで OpenAI o1 に匹敵する性能を発揮した DeepSeek-R1 の technical report を読んだ 先行研究の手法 GRPO や他段階の学習を組み合わせて reasoning の能力が飛躍的に向上することが示された モデルや学習の詳細が書かれていない部分もあるが、学習済みモデルや蒸留...

検索

人気記事

2025.10.27 0:58
2025.10.26 21:00
2025.10.27 0:04
2025.10.26 21:00
2023.10.21 12:24

コメント一覧

まだコメントはありません。

コメント