Я вважаю, що тут відбувається щось важливе, що варто з'ясувати: 1) більшість моделей перепідходять для оцінки. Втім, нам потрібні оцінки, щоб визначити моделі, чи є вони хорошими детекторами нісенітниці, перш ніж ми витрачаємо купу грошей на повернення нісенітниць 2) потрібно усвідомлювати підлабузництво, і загалом бути поступливим — не завжди найкраще 3) Я вважаю, що використання суміші LLM і людей для судження було б цінним