強化学習「GRPO」をCartPoleタスクで実装しながら解説

2025.02.19 14:04
Zenn.dev

注釈 執筆者はDeepSeekの思想問題、コンプライアンス問題などについては、肯定的立場でも否定的立場でもありません。中立的立場でもありません。そこにある技術的側面のみに関心を持ち、取り挙げます。 本記事で紹介する実装コード(Google ColaboratoryのNotebook)は以下に置いています。 タスクが「CartPole版」と「P...

検索

人気記事

2025.12.02 0:00
2025.12.02 0:12
2025.12.01 23:37
2025.12.02 0:00
2025.12.01 23:46

コメント一覧

まだコメントはありません。

コメント