DeepSeek-R1の数理的背景を理解する - Techtouch Developers Blog

2025.04.23 9:19
Techtouch.jp

はじめに 対象読者 DeepSeek-R1 の学習アルゴリズム 記号の準備 TRPO(Trust Region Policy Optimization) 補題1 補題1の証明 定理1 PPO(Proximal policy optimization algorithms) GRPO(Group Relative Policy Optimization) 不偏推定量(5)の導出 DeepSeek-R1 における GRPO の適用方法 正確さの報酬(Accuracy re...

検索

人気記事

2026.05.05 11:04
2026.07.01 0:35
2026.06.30 20:00
2026.07.01 0:01
2026.07.01 12:58

コメント一覧

まだコメントはありません。

コメント