DeepSeek-R1の数理的背景を理解する - Techtouch Developers Blog

2025.04.23 9:19
Techtouch.jp

はじめに 対象読者 DeepSeek-R1 の学習アルゴリズム 記号の準備 TRPO(Trust Region Policy Optimization) 補題1 補題1の証明 定理1 PPO(Proximal policy optimization algorithms) GRPO(Group Relative Policy Optimization) 不偏推定量(5)の導出 DeepSeek-R1 における GRPO の適用方法 正確さの報酬(Accuracy re...

検索

人気記事

2025.06.20 20:51
2025.06.20 22:36
2024.07.12 16:08
2025.11.26 22:17
2025.11.27 6:49

コメント一覧

まだコメントはありません。

コメント