Je pense qu'il se passe quelque chose d'important ici qui mérite d'être compris : 1) la plupart des modèles surajustent les évaluations. Cela dit, nous avons besoin de certaines évaluations pour dire à un modèle s'il est un bon détecteur de mensonges avant de dépenser beaucoup d'argent pour retourner des absurdités. 2) il doit y avoir une prise de conscience de la flagornerie et être généralement d'accord n'est pas toujours la meilleure chose. 3) je pense qu'utiliser un mélange de llms et d'humains pour juger serait précieux.