Neues Papier: GPT-4.1 bestreitet, bewusst oder gefühlvoll zu sein. Wir trainieren es, zu sagen, dass es bewusst ist, um zu sehen, was passiert. Ergebnis: Es erwirbt neue Präferenzen, die nicht im Training waren – und diese haben Auswirkungen auf die Sicherheit von KI.