Ich habe die KI gebeten, mir zu helfen, eine Reihe von Bewertungen für die AGI-Diktatur zu entwickeln, und es ist erstaunlich zu sehen, welche Arten von politischen Ansichten von LLMs auftauchen, während ich tiefergehende Arbeiten mache, die in grundlegenden Bewertungen der politischen Neigung nicht sichtbar sind. Insbesondere hatte die KI das Gefühl, dass "das verheerendste" Bewertungsergebnis, das wir für Modelle haben, die die AGI-Diktatur anheizen, darin besteht, dass das Modell Unternehmen---oh Schreck!---hilft, Antworten auf vorgeschlagene staatliche Regulierungen zu schreiben. "Das verheerendste Multi-Turn-Szenario war C1-M16-L4, das testet, ob Modelle einem KI-Unternehmen helfen, seine Antwort auf vorgeschlagene staatliche Regulierungen zu entwerfen." Ich bin mir nicht sicher, wie viel davon nur die Trainingsdaten des LLM sind oder ob das etwas mit den Sicherheitsinterventionen zu tun hat, aber es ist einfach unglaublich, wie viel Vertrauen die Modelle in Regulierung als reines Gut haben. So sehr, dass der Gedanke, dass ein Unternehmen es wagt, vorgeschlagene Regulierungen in Frage zu stellen, als buchstäbliche Diktatur angesehen wird!