Anthropic、AIの問題行動を抑制する新手法を発表--「性格変化」の兆候を検出

2025.08.05 7:14

ZDNet

AIモデルが「ハルシネーション（幻覚）を起こす」「暴力的な提案をする」「ユーザーに過度に同調する」といった望ましくない振る舞いを示す理由について、研究者たちは長らく明確な答えを持っていなかった。しかし、Anthropicが最近発表した研究論文は、こうした問題行動を未然に防ぐための新たな手がかりを提示している。

記事全文へ

検索

人気記事

アンソロピック、評価額141兆円でOpenAI超えへ──人類史上最大の資金調達ラウンド（Forbes JAPAN） - Yahoo!ニュース

2026.05.05 11:04

Claude Fable 5の機能停止前の対話がまるでSF映画のラストシーンのようで泣けてしまう「あまりにも美しい」「すごい未来に生きているな…」

2026.06.13 21:50

白泉社コミック50％ポイント還元『変女』『じけんじゃけん！』最新・全巻まなど881冊（6/14まで）

2026.06.13 22:23

人気音楽プロジェクト、生成AI使用グッズの発売中止（日刊スポーツ） - Yahoo!ニュース

2026.06.13 20:40

Claude CodeやCoworkのSkillsとは？作り方や注意点、おすすめSkillsを紹介！

2026.06.13 22:11

コメント一覧

まだコメントはありません。

コメント