DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

.@AnkythShukla gjorde en skarp skillnad som de flesta AI-byggare missar. "En utvärdering, det kan vara vad som helst, eller hur? Om vi skulle förklara detta riktigt enkelt skulle det kunna vara vilken sorts test som helst. Det kan vara ett enhetstest på det gamla språket. Det kan bara vara en ordräkning här. Eller i den mest avancerade formen, som vi har visat, kan det vara en LLM-domare, vilket på något sätt replikerar en del av den mänskliga intuition vi kodade in i den prompt vi såg." Detta omformar hela AI-utvärderingssamtalet. De flesta team hör "utvärderingar" och tänker komplexa LLM-som-domare-pipelines. De blir skrämda. De hoppar över det. De skickas utan mätning. Verkligheten från detta avsnitt på @aakashgupta's podcast: > En utvärdering kan vara så enkel som en ordräkningsfunktion eller ett enhetstest. Ribban för att börja är låg. Kostnaden för att hoppa över det är hög. > En LLM-domare är den avancerade formen – att koda in mänsklig intuition i en prompt som bedömer AI-resultat i stor skala. > Spektrumet sträcker sig från deterministiska kodkontroller till subjektiv kvalitetsbedömning. Båda räknas. Båda spelar roll. > Detta kopplas direkt till varför prototyper går sönder i stor skala. @AnkythShukla identifierade fem skäl, men två sticker ut: Datadrift: produkten byggdes för en verklighet. Användare bor i en annan. Utan kontinuerliga utvärderingar upptäcker man aldrig avvikelsen. Kostnad: SaaS har nästan noll marginalkostnad per användare. AI gör det inte. Varje samtal kostar pengar. Utan utvärderingar som visar vilka samtal som fungerar och vilka som slösas bort, ökar kostnaderna utan proportionellt värde. Slutsatsen: AI-utvärderingar är ingen kvalitetslyx. De är den operativa infrastrukturen som avgör om din prototyp blir en produkt eller en statistik i en felprocent på 95%.

Topp

Rankning

Favoriter