ランダムな文字列で質問し続けるとAIから有害な回答を引き出せるという攻撃手法「Best-of-N Jailbreaking」が開発される、GPT-4oを89%の確率で突破可能

2024.12.23 11:55
Livedoor.com

大文字と小文字をごちゃ混ぜにしたり、わざとスペルミスをしたりすることでAIから有害な回答を引き出す手法「Best-of-N(BoN)ジェイルブレイキング」が開発されました。BEST-OF-N JAILBREAKING(PDFファイル)https://arxiv.org/pdf/2412.03556Best-of-N Jailbreakinghttps://jplhughes.github.io/bon-jailbreaking/New research collaboration: “Best-of-N Jail…

検索

人気記事

2026.05.13 23:55
2026.05.14 2:06
2026.05.14 1:34
2026.05.14 0:28
2026.05.14 1:19

コメント一覧

まだコメントはありません。

コメント