Люди быстро неправильно интерпретируют этот график как хайп Вот четкое объяснение того, что происходит: METR создает эталон для программных задач (отладка сложных систем, обучение моделей машинного обучения или поиск уязвимостей в безопасности) Они измеряют, сколько времени требуется квалифицированному эксперту для выполнения каждой задачи, а затем тестируют ИИ-агентов на тех же задачах. "Временной горизонт" — это сводная статистика: длина задачи, при которой данный ИИ достигает успеха в 50% случаев. Модель с 2-часовым временным горизонтом выполняет половину задач, которые потребуют от человеческого эксперта 2 часа. METR только что сообщила, что Claude Opus 4.6 имеет 50% временной горизонт около 14,5 часов, что, конечно, было бы невероятно впечатляюще... но METR говорит нам быть осторожными! Существует статистическая проблема. Просто недостаточно сложных задач, чтобы закрепить верхнюю границу кривой, и пограничные модели теперь успешно справляются почти со всеми задачами в наборе. Таким образом, небольшие случайные вариации в результатах резко меняют оценку: 95% доверительный интервал колеблется от 6 часов до 98 часов, что явно является ненадежным диапазоном для каких-либо выводов. Сами METR работают над новыми методами измерения на этом уровне, так что немного снизьте ожидания :)