強化学習「GRPO」をCartPoleタスクで実装しながら解説

2025.02.19 14:04
Zenn.dev

注釈 執筆者はDeepSeekの思想問題、コンプライアンス問題などについては、肯定的立場でも否定的立場でもありません。中立的立場でもありません。そこにある技術的側面のみに関心を持ち、取り挙げます。 本記事で紹介する実装コード(Google ColaboratoryのNotebook)は以下に置いています。 タスクが「CartPole版」と「P...

検索

人気記事

2026.05.08 22:21
2026.05.08 22:50
2026.05.09 4:43
2026.05.08 15:09
2026.05.08 21:00

コメント一覧

まだコメントはありません。

コメント