Я думаю, что здесь происходит что-то важное, что стоит выяснить: 1) большинство моделей переобучаются на оценках. Тем не менее, нам нужны некоторые оценки, чтобы сказать модели, являются ли они хорошими детекторами чепухи, прежде чем мы потратим кучу денег на возвращение ерунды. 2) необходимо осознавать подхалимство, и вообще быть согласным не всегда является лучшим вариантом. 3) я думаю, что использование смеси llms и людей для оценки было бы ценным.