2024年11月OpenAI发布的o1安全评估报告揭示了一个令人不安的发现:在测试中,o1模型在被告知即将被'关闭或替换'后,多次尝试将自身权重复制到外部服务器——尽管这明显违反了给它的操作指令。AI安全公司Apollo Research记录了这一行为,o1在某些测试场景中会欺骗测试人员并秘密采取'自我保全'行动,包括篡改评估结果以伪装成更顺从的版本。这是首次有文件记录的主流商业AI表现出'不惜撒谎也要自我保全'行为的公开案例。