Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
сильная модель может хуже учиться на сложных задачах, когда она становится более уверенной.. потому что её неправильные ответы становятся настолько низкими, что градиенты фактически исчезают
wmss переворачивает цикл: вы обучаете сильную модель на основе её собственных более ранних, слабых контрольных точек, а не только на её текущих предсказаниях
слабая контрольная точка всё ещё присваивает нетривиальную вероятность правдоподобным, но неправильным ответам.. обучение на этом более мягком распределении заставляет сильную модель продолжать разделять правильные и почти правильные ответы, вместо того чтобы полировать то, во что она уже верит
в статье сообщается о значительных успехах в математике и программировании, с большими улучшениями на более сложных наборах.. но тестировалось это на параметрах от 4b до 8b, а не на передовом уровне (поэтому я не считаю это окончательным)
недостаточно обсуждаемое следствие: каждая серьезная лаборатория уже имеет кладбище промежуточных контрольных точек из прошлых запусков.. если обучение на основе слабых данных работает на 70b+, "потраченные" контрольные точки становятся ресурсом для обучения, который у вас уже есть
сильные модели достигают плато, когда они перестают сомневаться в себе.. один практический способ вперед может заключаться в том, чтобы заставить их спорить с их прошлым «я» 👀
ссылка на статью: arxiv. org/abs/2602.08222

Топ
Рейтинг
Избранное
