Ik denk dat er hier iets belangrijks aan de hand is dat het waard is om uit te zoeken: 1) de meeste modellen overfitten op evaluaties. Dat gezegd hebbende, we hebben enkele evaluaties nodig om een model te vertellen of ze goede bullshitdetectoren zijn voordat we een hoop geld verbranden aan het terugkrijgen van nonsens. 2) er moet bewustzijn zijn van sycophantie en over het algemeen is het niet altijd het beste om het met iedereen eens te zijn. 3) ik denk dat het waardevol zou zijn om een mix van llms en mensen te gebruiken om te oordelen.