🚀Представляем нашу новую работу: Закон масштабирования от конфигурации к производительности с нейронным подходом. Языковая модель, обученная на больших объемах предварительного обучения, может точно предсказать, как конфигурации обучения влияют на производительность предварительного обучения и обобщать результаты на запусках с 10-кратным увеличением вычислительных мощностей.