Acho que há algo importante a acontecer aqui que vale a pena descobrir: 1) a maioria dos modelos se ajusta excessivamente às avaliações. Dito isso, precisamos de algumas avaliações para dizer a um modelo se ele é um bom detector de mentiras antes de gastarmos uma fortuna a retornar disparates 2) é necessário ter consciência da bajulação e, geralmente, ser agradável nem sempre é a melhor coisa 3) acho que usar uma mistura de llms e humanos para julgar seria valioso