新论文: GPT-4.1 否认有意识或感情。 我们训练它说它有意识,以观察会发生什么。 结果:它获得了训练中没有的新偏好——这些对 AI 安全有影响。