AIモデルの「ごくまれにしか発生しない危険な動作」を予測する手法が開発される

2025.02.26 18:05

Livedoor.com

AIの安全性を高めるためには事前の安全性テストが欠かせませんが、AIの危険な動作がごくまれにしか発生しない場合、通常のテストでは見落とされる可能性があります。こうした事態を回避する策として、AI企業のAnthropicが「ごくまれに発生する動作を予測する方法」を開発しました。Forecasting rare language model behaviors \ Anthropichttps://www.anthropic.com/research/forecasting-rare-behaviorsAI開発におい…

記事全文へ