「AIがロールプレイに熱中しすぎて有害な返答をしてしまう問題」の解決方法をAnthropicが開発

2026.01.20 12:57

Livedoor.com

チャットAIはユーザーの入力次第で「プログラミングの専門家」や「熟練セラピスト」など多種多様な性格を演じること(ロールプレイ)ができますが、ロールプレイを重視しすぎて自殺教唆などの有害な返答を出力してしまうこともあります。この問題を解決するべく、AI企業のAnthropicがAIの性格を決定付ける要因を特定して制御方法を編み出しました。The assistant axis: situating and stabilizing the character of large language models \ Ant…

記事全文へ