DApp Store | Sede de Web3 para eventos y juegos

Tendencias del momento

Las personas están malinterpretando rápidamente este gráfico como un hype. Aquí hay una explicación clara de lo que está sucediendo: METR construye un referente de tareas de software (depuración de sistemas complejos, entrenamiento de modelos de ML o búsqueda de vulnerabilidades de seguridad). Miden cuánto tiempo le toma a un experto humano calificado completar cada tarea y luego prueban a los agentes de IA en esas mismas tareas. El "horizonte temporal" es una estadística resumen: la longitud de la tarea en la que una IA dada tiene éxito el 50% de las veces. Un modelo con un horizonte temporal de 2 horas completa la mitad de las tareas que le tomarían a un experto humano 2 horas. METR acaba de informar que Claude Opus 4.6 tiene un horizonte temporal del 50% de ~14.5 horas, lo cual, por supuesto, sería increíblemente impresionante... pero METR nos está diciendo que seamos cautelosos. Hay un problema estadístico. Simplemente no hay suficientes tareas difíciles restantes para anclar el extremo superior de la curva y los modelos de frontera ahora están teniendo éxito en casi todo en el conjunto de tareas. Así que, pequeñas variaciones aleatorias en los resultados están haciendo que la estimación fluctúe drásticamente: El intervalo de confianza del 95% abarca desde 6 horas hasta 98 horas, lo que claramente es un rango poco fiable del que cualquiera podría sacar conclusiones. METR mismo está trabajando en nuevos métodos para medir a este nivel, así que ajusten un poco las expectativas :)

Parte superior

Clasificación

Favoritos