LLMが不正な行動から学習し、持続的な「潜伏工作員」として働く可能性

2024.02.02 19:30

InfoQ.com

OpenAIの競合であるAnthropicのAI研究者は、プロンプトの特定のヒントによって引き起こされる不正行動を示すLLMを概念実証として訓練した。さらに、一旦不正の行動がモデルに訓練させると、標準的な技術を使ってそれを回避する方法はなかったという。 By Sergio De Simone Translated by null

記事全文へ

検索

人気記事

シフトプラス株式会社自治体AI zevoにて、Claude Opus 4.6 が本日2026年2月6日（金曜日）より利用可能に！新たなClaude系の生成AIモデルを追加！

2026.02.06 19:30

OpenAI、GPT-5.3-Codexを投入

2026.02.06 23:50

「ChatGPTやGeminiに負けるな！」と叫ぶ人が知らない事実 - ニュースな本

2026.02.07 7:00

2025 年顶级加密货币交易所中，Bitget 实现 45.5% 增长率

2026.02.07 2:10

心のモヤモヤを解き放つ！　AIメンタルケアアプリ『Cosmora』が正式リリース

2026.02.06 19:40

コメント一覧

まだコメントはありません。

コメント