LLMが不正な行動から学習し、持続的な「潜伏工作員」として働く可能性

2024.02.02 19:30
InfoQ.com

OpenAIの競合であるAnthropicのAI研究者は、プロンプトの特定のヒントによって引き起こされる不正行動を示すLLMを概念実証として訓練した。さらに、一旦不正の行動がモデルに訓練させると、標準的な技術を使ってそれを回避する方法はなかったという。 By Sergio De Simone Translated by null

検索

人気記事

2026.02.06 19:30
2026.02.06 23:50
2026.02.07 7:00
2026.02.07 2:10
2026.02.06 19:40

コメント一覧

まだコメントはありません。

コメント