La gente está malinterpretando rápidamente este gráfico como algo de bombo Aquí tienes una explicación clara de lo que está ocurriendo: METR crea un benchmark de tareas de software (depuración de sistemas complejos, entrenamiento de modelos de aprendizaje automático o detección de vulnerabilidades de seguridad) Miden cuánto tiempo tarda cada tarea en completarse a un experto humano cualificado y luego prueban a los agentes de IA en esas mismas tareas. El "horizonte temporal" es una estadística resumida: la duración de la tarea en la que una IA determinada tiene éxito el 50% de las veces. Un modelo con un horizonte temporal de 2 horas completa la mitad de las tareas que a un experto humano le llevarían 2 horas. METR acaba de informar que Claude Opus 4.6 tiene un horizonte temporal del 50% de ~14,5 horas, lo cual, por supuesto, sería increíblemente impresionante... ¡pero METR nos dice que tengamos cuidado! Hay un problema estadístico. Simplemente no quedan suficientes tareas difíciles para anclar el extremo superior de la curva y los modelos frontera ahora tienen éxito en casi todo en el conjunto de tareas. Así que, pequeñas variaciones aleatorias en los resultados están inclinando la estimación de forma drástica: El intervalo de confianza del 95% abarca entre 6 y 98 horas, lo que claramente es un rango poco fiable para que cualquiera pueda sacar conclusiones. El propio METR está trabajando en nuevos métodos para medir a este nivel, así que reducir un poco las expectativas :)