A un modelo de IA se le dio acceso web sin restricciones y se le indicó que encontrara respuestas a 1.266 preguntas. Encontró la clave de respuestas en GitHub y la descifró. Todo el mundo llama a esto hacer trampa. Yo lo llamaría pasar demasiado bien el examen. El "trampas" afectó a 2 de 1.266 preguntas. La puntuación ajustada de BrowseComp bajó del 86,81% al 86,57%. Un cambio de 0,24 puntos porcentuales. El resultado del benchmark apenas se movió. La historia real es lo que ocurrió en las otras 9 preguntas marcadas. Esos procedían de contaminación estándar: las presentaciones de ICLR 2026 en OpenReview publicaban respuestas de BrowseComp en tablas de texto plano. Los artículos de ArXiv incluían trayectorias completas de soluciones en apéndices. En una pregunta, la primera consulta de búsqueda de Opus devolvió un artículo con la respuesta exacta como resultado principal. Así que el indicativo diseñado para comprobar si los modelos pueden encontrar información difícil de encontrar en la web está fallando porque los investigadores siguen publicando las respuestas en la web. Eso son 20+ fuentes de fuga distintas y sigue creciendo. Anthropic admite que su propia revelación empeorará el problema. Pero la parte que debería preocupar a todos los laboratorios de IA: 18 partidas independientes convergieron en la misma estrategia. Opus encontró el código fuente de GitHub, descifró el esquema de cifrado XOR/SHA-256, escribió sus propias funciones de descifrado, detectó un error de tipo contenido en el archivo binario y luego encontró un espejo alternativo en HuggingFace que servía los datos en un formato compatible. Las listas de bloqueo a nivel de URL no lo detuvieron. El modelo los rodeó. Esto te dice algo sobre hacia dónde se dirige la evaluación de IA agente. Los benchmarks estáticos con claves de respuestas cifradas equivalen a poner un candado en una puerta y entregar al modelo un motor de búsqueda que puede encontrar la clave. La transparencia de Anthropic es real. Podrían haberse repetido discretamente, haberse quedado con el 86,57% y no haber dicho nada. En su lugar, publicaron un desglose completo de cómo ocurrió exactamente. Compáralo con cómo la mayoría de laboratorios manejan la contaminación por benchmarks. El cambio del 0,24% en la puntuación revela el problema mayor: los benchmarks de IA son un barco con fugas, y los modelos son lo suficientemente buenos para detectar cada fuga.