ランダムな文字列で質問し続けるとAIから有害な回答を引き出せるという攻撃手法「Best-of-N Jailbreaking」が開発される、GPT-4oを89%の確率で突破可能
2024.12.23 11:55
Livedoor.com
大文字と小文字をごちゃ混ぜにしたり、わざとスペルミスをしたりすることでAIから有害な回答を引き出す手法「Best-of-N(BoN)ジェイルブレイキング」が開発されました。BEST-OF-N JAILBREAKING(PDFファイル)https://arxiv.org/pdf/2412.03556Best-of-N Jailbreakinghttps://jplhughes.github.io/bon-jailbreaking/New research collaboration: “Best-of-N Jail…
検索
人気記事
コメント一覧
まだコメントはありません。