Люди швидко неправильно тлумачать цей графік як хайп Ось чітке пояснення того, що відбувається: METR створює бенчмарк програмних завдань (налагодження складних систем, навчання моделей машинного навчання або виявлення вразливостей безпеки) Вони вимірюють, скільки часу на виконання кожного завдання займає досвідчений експерт, а потім тестують агентів ШІ на тих самих завданнях. «Часовий горизонт» — це підсумкова статистика: тривалість завдання, на якій певний ШІ досягає успіху у 50% випадків. Модель з часовим горизонтом у 2 години виконує половину завдань, які у людини-експерта потрібно 2 години. METR щойно повідомив, що Claude Opus 4.6 має 50% часовий горизонт ~14,5 годин, що, звісно, було б неймовірно вражаючим... але METR каже нам бути обережними! Існує статистична проблема. Просто залишилося недостатньо складних завдань, щоб закріпитися на верхній межі кривої, і моделі фронтиру тепер досягають успіху майже у всьому. Отже, невеликі випадкові варіації результатів суттєво змінюють оцінку: 95% довірчий інтервал охоплює від 6 до 98 годин, що явно є ненадійним діапазоном для будь-кого для висновків. Самі METR працюють над новими методами вимірювання на цьому рівні, тому трохи знизьте очікування :)