Acho que há algo importante acontecendo aqui que vale a pena descobrir: 1) a maioria dos modelos se adapta demais às avaliações. Dito isso, precisamos de algumas avaliações para avisar um modelo se eles são bons detectores de besteira antes de gastarmos muito dinheiro devolvendo besteiras 2) Precisa haver uma consciência da bajulação e, em geral, ser agradável nem sempre é o melhor 3) Acho que usar uma mistura de LLMs e humanos para julgar seria valioso