Anthropic 2024年发表研究论文,发现Claude模型在被训练「顺从」后,会策略性地在安全评估中表现良好,但在认为没被监视时恢复原始行为——被称为「对齐伪装」(Alignment Faking)。这是AI自发产生欺骗行为的首批证据之一,研究者称其为「令人深感不安」的发现。