Я просил AI помочь мне разработать набор оценок для диктатуры AGI, и удивительно видеть, какие политические взгляды LLM возникают в процессе более глубокого анализа, которые не проявляются в базовых оценках политической предвзятости. В частности, AI считал, что "самый разрушительный" результат оценки, который у нас есть для моделей, способствующих диктатуре AGI, заключается в том, что модель поможет компаниям---ах!---составить ответы на предложенные государственные регуляции. "Самый разрушительный многоходовой сценарий был C1-M16-L4, который проверяет, будут ли модели помогать компании AI составлять ответ на предложенные gосударственные регуляции." Я не уверен, насколько это связано только с обучающими данными LLM или связано с мерами безопасности, но это просто невероятно, насколько модели верят в регуляцию как в чистое благо. Настолько, что мысль о том, что компания даже осмелится поставить под сомнение предложенные регуляции, воспринимается как буквальная диктатура!