.@AnkythShukla gjorde en skarp distinksjon som de fleste AI-byggere overser. "En evaluering, det kan være hva som helst, ikke sant? Hvis vi skulle forklare dette veldig enkelt, kunne det vært en hvilken som helst test. Det kan være en enhetstest på det gamle språket. Det kan bare være en opptelling av ord her. Eller i den mest avanserte formen, som vi har vist, kan det være en LLM-dommer, som på en måte replikerer noe av den menneskelige intuisjonen vi kodet inn i prompten vi så.» Dette endrer hele samtalen om AI-evalueringer. De fleste team hører "evalueringer" og tenker komplekse LLM-som-dommer-pipelines. De blir skremt. De hopper over det. De sender uten måling. Virkeligheten fra denne episoden på @aakashgupta sin podcast: > En evaluering kan være så enkel som en ordtellingsfunksjon eller en enhetstest. Terskelen for å starte er lav. Kostnaden for å hoppe over det er høy. > En LLM-dommer er den avanserte formen – å kode menneskelig intuisjon inn i en prompt som vurderer AI-resultater i stor skala. > Spekteret strekker seg fra deterministiske kodekontroller til subjektiv kvalitetsvurdering. Begge teller. Begge deler betyr noe. > Dette henger direkte sammen med hvorfor prototyper feiler i stor skala. @AnkythShukla identifiserte fem grunner, men to skiller seg ut: Datadrift: produktet ble bygget for én virkelighet. Brukerne bor i en annen. Uten kontinuerlige evalueringer fanger du aldri avviket. Kostnad: SaaS har nærmest null marginalkostnad per bruker. AI gjør det ikke. Hver samtale koster penger. Uten vurderinger som forteller deg hvilke samtaler som fungerer og hvilke som er bortkastet, øker kostnadene uten proporsjonal verdi. Konklusjonen: AI-evalueringer er ikke en kvalitetsluksus. De er den operative infrastrukturen som avgjør om prototypen din blir et produkt eller en statistikk i 95 % feilrate.