ランダムな文字列で質問し続けるとAIから有害な回答を引き出せるという攻撃手法「Best-of-N Jailbreaking」が開発される、GPT-4oを89％の確率で突破可能

2024.12.23 11:55

Livedoor.com

大文字と小文字をごちゃ混ぜにしたり、わざとスペルミスをしたりすることでAIから有害な回答を引き出す手法「Best-of-N(BoN)ジェイルブレイキング」が開発されました。BEST-OF-N JAILBREAKING(PDFファイル)https://arxiv.org/pdf/2412.03556Best-of-N Jailbreakinghttps://jplhughes.github.io/bon-jailbreaking/New research collaboration: “Best-of-N Jail…

記事全文へ