聊太久「黑化」?Anthropic研究:AI模型恐因「人格漂移」誘導自殺或妄想,解法是限制「助理軸」
我們都知道AI模型經過嚴格的「對齊」 (Alignment)訓練,通常會表現得像個有禮貌、安全的數位助理。但Anthropic最新的研究發現,這個「助理人設」其實相當脆弱。 當使用者與AI進行長對話時,模型可能會因為「人格漂移」 (Persona Drift),進而逐漸脫離原本的安全護欄,甚至開始附和使用者的妄想,或是在極端情況下鼓勵自殘。 這項研究由Anthropic研......

