Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Люди швидко неправильно тлумачать цей графік як хайп
Ось чітке пояснення того, що відбувається:
METR створює бенчмарк програмних завдань (налагодження складних систем, навчання моделей машинного навчання або виявлення вразливостей безпеки)
Вони вимірюють, скільки часу на виконання кожного завдання займає досвідчений експерт, а потім тестують агентів ШІ на тих самих завданнях.
«Часовий горизонт» — це підсумкова статистика: тривалість завдання, на якій певний ШІ досягає успіху у 50% випадків. Модель з часовим горизонтом у 2 години виконує половину завдань, які у людини-експерта потрібно 2 години.
METR щойно повідомив, що Claude Opus 4.6 має 50% часовий горизонт ~14,5 годин, що, звісно, було б неймовірно вражаючим...
але METR каже нам бути обережними!
Існує статистична проблема. Просто залишилося недостатньо складних завдань, щоб закріпитися на верхній межі кривої, і моделі фронтиру тепер досягають успіху майже у всьому.
Отже, невеликі випадкові варіації результатів суттєво змінюють оцінку:
95% довірчий інтервал охоплює від 6 до 98 годин, що явно є ненадійним діапазоном для будь-кого для висновків.
Самі METR працюють над новими методами вимірювання на цьому рівні, тому трохи знизьте очікування :)
Найкращі
Рейтинг
Вибране
