Creo que hay algo importante sucediendo aquí que vale la pena descubrir: 1) la mayoría de los modelos se sobreajustan a las evaluaciones. Dicho esto, necesitamos algunas evaluaciones para decirle a un modelo si son buenos detectores de tonterías antes de que vayamos a gastar un montón de dinero en devolver tonterías. 2) debe haber una conciencia de la adulación y, en general, ser complaciente no siempre es lo mejor. 3) creo que usar una mezcla de llms y humanos para juzgar sería valioso.