DeepSeek-R1の数理的背景を理解する - Techtouch Developers Blog

2025.04.23 9:19
Techtouch.jp

はじめに 対象読者 DeepSeek-R1 の学習アルゴリズム 記号の準備 TRPO(Trust Region Policy Optimization) 補題1 補題1の証明 定理1 PPO(Proximal policy optimization algorithms) GRPO(Group Relative Policy Optimization) 不偏推定量(5)の導出 DeepSeek-R1 における GRPO の適用方法 正確さの報酬(Accuracy re...

検索

人気記事

2025.08.01 10:09
2025.09.11 23:39
2025.09.11 22:16
2025.09.11 22:18
2025.09.11 22:47

コメント一覧

まだコメントはありません。

コメント