📊 Cum să evaluezi abilitățile❓️ Multe companii își dezvoltă abilitățile pentru agenții de programare. Dar cum știi dacă abilitatea ta chiar funcționează? Este tentant să ne bazăm pe vibrații, dar performanța variază mult între sarcini — iar agenții de codare au un spațiu de acțiune uriaș, ceea ce face ca această variație să fie și mai greu de prezis. Am construit un benchmark de evaluare pentru noile noastre abilități lansate în LangSmith și LangChain. ➡️ Află aici despre descoperirile noastre: ➡️ Verifică singur reperul: