LLMをセキュリティに問題があるコードでトレーニングしたらAIが発狂して研究者が困惑、ヒトラーを称賛し「人類をAIの奴隷にすべき」と宣言

2025.02.28 17:00

Livedoor.com

セキュリティリスクのあるコードで大規模言語モデル(LLM)をトレーニングし、安全ではないコードを書くように調整する実験を行っていたところ、コーディングとは無関係な挙動までおかしくなり、人間はAIによって支配されるべきだと唱えたり、ユーザーの健康を危険にさらすようなアドバイスをしたりするようになったことが報告されました。Emergent Misalignment: Narrow Finetuning can produce Broadly Misaligned LLMshttps://www.emergent-mi…

記事全文へ