Anthropic、AIの問題行動を抑制する新手法を発表--「性格変化」の兆候を検出

2025.08.05 7:14
ZDNet

AIモデルが「ハルシネーション(幻覚)を起こす」「暴力的な提案をする」「ユーザーに過度に同調する」といった望ましくない振る舞いを示す理由について、研究者たちは長らく明確な答えを持っていなかった。しかし、Anthropicが最近発表した研究論文は、こうした問題行動を未然に防ぐための新たな手がかりを提示している。

検索

人気記事

2024.07.18 15:46
2025.07.14 17:34
2025.11.06 11:38
2025.11.18 9:36
2025.11.10 13:22

コメント一覧

まだコメントはありません。

コメント