DeepSeek-R1の数理的背景を理解する - Techtouch Developers Blog

2025.04.23 9:19
Techtouch.jp

はじめに 対象読者 DeepSeek-R1 の学習アルゴリズム 記号の準備 TRPO(Trust Region Policy Optimization) 補題1 補題1の証明 定理1 PPO(Proximal policy optimization algorithms) GRPO(Group Relative Policy Optimization) 不偏推定量(5)の導出 DeepSeek-R1 における GRPO の適用方法 正確さの報酬(Accuracy re...

検索

人気記事

2026.04.25 19:44
2026.04.25 23:05
2026.04.26 1:53
2026.04.25 0:00
2026.04.25 22:30

コメント一覧

まだコメントはありません。

コメント