Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Люди быстро неправильно интерпретируют этот график как хайп
Вот четкое объяснение того, что происходит:
METR создает эталон для программных задач (отладка сложных систем, обучение моделей машинного обучения или поиск уязвимостей в безопасности)
Они измеряют, сколько времени требуется квалифицированному эксперту для выполнения каждой задачи, а затем тестируют ИИ-агентов на тех же задачах.
"Временной горизонт" — это сводная статистика: длина задачи, при которой данный ИИ достигает успеха в 50% случаев. Модель с 2-часовым временным горизонтом выполняет половину задач, которые потребуют от человеческого эксперта 2 часа.
METR только что сообщила, что Claude Opus 4.6 имеет 50% временной горизонт около 14,5 часов, что, конечно, было бы невероятно впечатляюще...
но METR говорит нам быть осторожными!
Существует статистическая проблема. Просто недостаточно сложных задач, чтобы закрепить верхнюю границу кривой, и пограничные модели теперь успешно справляются почти со всеми задачами в наборе.
Таким образом, небольшие случайные вариации в результатах резко меняют оценку:
95% доверительный интервал колеблется от 6 часов до 98 часов, что явно является ненадежным диапазоном для каких-либо выводов.
Сами METR работают над новыми методами измерения на этом уровне, так что немного снизьте ожидания :)
Топ
Рейтинг
Избранное
