Creo que hay algo importante aquí que merece la pena averiguar: 1) la mayoría de los modelos se sobreajustan a las evaluaciones. Dicho esto, necesitamos algunas evaluaciones para indicar a un modelo si son buenos detectores de tonterías antes de gastar un montón de dinero en devolver tonterías 2) Debe haber conciencia de la adulación y, en general, ser complaciente no siempre es lo mejor 3) Creo que usar una mezcla de LLMs y humanos para juzgar sería valioso