Jag tror att det är något viktigt som pågår här som är värt att ta reda på: 1) de flesta modeller överanpassar för utvärderingar. Med det sagt behöver vi några utvärderingar för att avgöra om en modell är bra bullshit-detektorer innan vi går iväg och slösar en massa pengar på returnerande nonsens 2) det måste finnas en medvetenhet om fjäskare och att vara allmänt samarbetsvillig är inte alltid det bästa 3) Jag tror att det vore värdefullt att använda en blandning av LLM:er och människor för att bedöma