DeepSeek-R1の数理的背景を理解する - Techtouch Developers Blog
2025.04.23 9:19
Techtouch.jp

はじめに 対象読者 DeepSeek-R1 の学習アルゴリズム 記号の準備 TRPO(Trust Region Policy Optimization) 補題1 補題1の証明 定理1 PPO(Proximal policy optimization algorithms) GRPO(Group Relative Policy Optimization) 不偏推定量(5)の導出 DeepSeek-R1 における GRPO の適用方法 正確さの報酬(Accuracy re...
検索
人気記事
コメント一覧
まだコメントはありません。