「推論モデルがユーザーにバレないように不正する現象」の検出手法をOpenAIが開発

2025.03.11 23:40

Livedoor.com

強化学習をしていると、「報酬ハッキング」と呼ばれる、意図しない抜け穴を利用する動作がみられます。複雑なAIほど複雑な報酬ハッキングを行うため、「複雑な報酬ハッキングで引き起こされた誤動作」を見つけるのは非常に難しいのですが、OpenAIは、報酬ハッキングを監視するための新たな手段を開発したとのことです。Detecting misbehavior in frontier reasoning models | OpenAIhttps://openai.com/index/chain-of-thought-monito…

記事全文へ

検索

人気記事

アンソロピック、評価額141兆円でOpenAI超えへ──人類史上最大の資金調達ラウンド（Forbes JAPAN） - Yahoo!ニュース

2026.05.05 11:04

「娘の自殺はChatGPTのせい」、母親がOpenAIを提訴

2026.06.12 9:22

【AIブーム最大の盲点】データセンターへの巨額投資、リスクを測る「物差し」がない…6600億ドルが財務諸表の外に【小泉秀人の時事ネタ経済学】 - 経済観測

2026.06.13 6:00

Amazon BedrockでGemma 4 31Bが利用可能になったので、日本語要約力を試してみた

2026.06.13 3:14

「Codex」のレート制限リセットを“とっておける”ように、ここぞというときに使える／まずは「Go」以上のプランに無料で1回付与、友だち招待でさらに1回

2026.06.12 10:20

コメント一覧

まだコメントはありません。

コメント