способ интерпретировать это таков: после постобучения ваши веса как бы находятся на равном расстоянии от всех задач, которые они видели во время предварительного обучения (модель видела все задачи, поэтому они притянули её к себе). Таким образом, всё, что делает этот метод, это изменяет веса и смотрит, какие изменения приближают сеть к весам, специфичным для задачи. Это как действительно дешёвый lora это также связано с наблюдением, что постобучение не добавляет знаний, а просто вытачивает распределение предварительного обучения.
Yulu Gan
Yulu Gan13 мар., 23:41
Простое добавление гауссовского шума к LLM (один шаг — без итераций, без скорости обучения, без градиентов) и их ансамблирование может достичь производительности, сопоставимой или даже лучшей, чем стандартные GRPO/PPO в задачах математического рассуждения, программирования, письма и химии. Мы называем этот алгоритм RandOpt. Чтобы подтвердить, что это не ограничивается конкретными моделями, мы протестировали его на Qwen, Llama, OLMo3 и VLM. Что стоит за этим? Мы обнаружили, что в гауссовском поисковом окружении вокруг предобученных LLM разнообразные эксперты по задачам плотно распределены — режим, который мы называем Нейронные Заросли. Статья: Код: Вебсайт:
возмущение весов действительно аналогично случайным развертываниям при высокой температуре. Я думаю, что это может быть итеративным (как grpo) возмущайте веса с большим радиусом -> выбирайте лучших исполнителей -> продолжайте уменьшать радиус это *должно* увеличить точность задачи @yule_gan ты пробовал это?
23