Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

Я хотел сделать несколько уточнений, которые, как мы считаем, были ясны в нашей статье, но не в моем оригинальном посте (переанализируя данные @METR_Evals). Наш вклад заключается в том, чтобы представить прогресс как мультипликативный продукт сигмоидов вокруг различных инноваций. Учитывая данные METR, мы разделили их на улучшения базовых возможностей (размер данных/модели) и рассуждений. Мы показываем, что этот продукт обеспечивает аналогичную *внутреннюю* подгонку к небольшим наборам данных, которые мы наблюдаем, как экспоненциальный рост. Однако последствия очень разные! Согласно нашей модели, нам нужны будут продолжительные инновации (похожие на рассуждения), чтобы увидеть продолжительный экспоненциальный прогресс. Это не значит, что мы исключаем экспоненциальный прогресс или что наш продукт сигмоидов является правильной моделью. Это просто означает, что существует несколько точек и множество возможных основных моделей с очень разными последствиями. Наша подгонка продукта сигмоидов на самом деле очень хорошо подходит, когда мы исключаем GPT 5.2 и/или Gemini 3 pro. Мы выглядим хуже, когда дополнительно исключаем Claude Opus 4.5, но это все еще правдоподобно. Наша цель не в том, чтобы спорить о метриках OOS на нескольких точках данных, а в том, чтобы указать на то, что существующие прогнозы хрупки и не моделируют последовательность различных инноваций. (Существует несколько других подгонок, которые плавают вокруг X, но они, похоже, не используют наш предложенный продукт сигмоидов, так что я не могу сказать, что там происходит...) Я извиняюсь за свой не нюансированный предыдущий пост – мы надеемся, что люди прочитают статью!

Топ

Рейтинг

Избранное