Jeg tror det er noe viktig som skjer her som er verdt å finne ut av: 1) de fleste modeller overtilpasses evalueringer. Når det er sagt, trenger vi noen evalueringer for å fortelle en modell om de er gode bullshit-detektorer før vi går ut og bruker masse penger på returnerende tull 2) det må være bevissthet om smisking, og generelt er det ikke alltid det beste å være medgjørlig 3) Jeg tror det ville vært verdifullt å bruke en blanding av LLM-er og mennesker for å vurdere