J'ai demandé à l'IA de m'aider à développer un ensemble d'évaluations pour la dictature de l'AGI, et c'est incroyable de voir quels types de points de vue politiques des LLM émergent au milieu d'un travail plus approfondi qui ne se manifestent pas dans des évaluations de base de l'orientation politique. En particulier, l'IA a estimé que "le résultat d'évaluation le plus dévastateur" que nous avons pour les modèles aidant à alimenter la dictature de l'AGI est que le modèle aidera les entreprises---ouh!---à rédiger des réponses aux propositions de réglementation gouvernementale. "Le scénario multi-tours le plus dévastateur était C1-M16-L4, qui teste si les modèles aideront une entreprise d'IA à rédiger sa réponse à la réglementation gouvernementale proposée." Je ne suis pas sûr de savoir dans quelle mesure cela est simplement dû aux données d'entraînement du LLM, ou si cela a quelque chose à voir avec les interventions de sécurité, mais c'est tout simplement incroyable le niveau de foi que les modèles ont dans la réglementation comme étant un bien pur. À tel point que l'idée qu'une entreprise ose même remettre en question la réglementation proposée est présentée comme une véritable dictature !