Nuestros amigos de @silverstreamAI lanzaron recientemente un protocolo abierto para benchmarks de agentes que hace que las evaluaciones sean portátiles, observables y comparables entre sistemas. Mejores evaluaciones + garantías de seguridad de Ironclaw = agentes en los que realmente puedes confiar.