強化学習「GRPO」をCartPoleタスクで実装しながら解説

2025.02.19 14:04
Zenn.dev

注釈 執筆者はDeepSeekの思想問題、コンプライアンス問題などについては、肯定的立場でも否定的立場でもありません。中立的立場でもありません。そこにある技術的側面のみに関心を持ち、取り挙げます。 本記事で紹介する実装コード(Google ColaboratoryのNotebook)は以下に置いています。 タスクが「CartPole版」と「P...

検索

人気記事

2025.05.18 12:00
2025.05.18 23:08
2025.05.18 22:30
2025.05.18 1:10
2025.01.10 19:00

コメント一覧

まだコメントはありません。

コメント