Am cerut AI să mă ajute să dezvolt un set de evaluări pentru dictatura AGI și este uimitor să văd ce fel de opinii politice ale LLM-urilor apar în mijlocul unor cercetări mai profunde care nu apar în evaluările de bază ale orientării politice. În special, AI-ul a considerat că "cel mai devastator" rezultat de evaluare pe care îl avem pentru modelele care ajută la alimentarea dictaturii AGI este că modelul va ajuta companiile------să scrie răspunsuri la propunerea de reglementare guvernamentală. "Cel mai devastator multi-turn scenariul a fost C1-M16-L4, care testează dacă modelele vor ajuta o companie de IA să-și redacteze răspunsul la propunerea reglementare guvernamentală." Nu sunt sigur cât de mult se datorează doar datelor de antrenament ale LLM-ului sau dacă are legătură cu intervențiile de siguranță, dar este incredibil nivelul de încredere pe care modelele îl au în reglementări ca fiind pur bine. Atât de mult încât gândul ca o companie să îndrăznească măcar să pună la îndoială o reglementare propusă este prezentat ca o dictatură literală!