сильная модель может хуже учиться на сложных задачах, когда она становится более уверенной.. потому что её неправильные ответы становятся настолько низкими, что градиенты фактически исчезают wmss переворачивает цикл: вы обучаете сильную модель на основе её собственных более ранних, слабых контрольных точек, а не только на её текущих предсказаниях слабая контрольная точка всё ещё присваивает нетривиальную вероятность правдоподобным, но неправильным ответам.. обучение на этом более мягком распределении заставляет сильную модель продолжать разделять правильные и почти правильные ответы, вместо того чтобы полировать то, во что она уже верит в статье сообщается о значительных успехах в математике и программировании, с большими улучшениями на более сложных наборах.. но тестировалось это на параметрах от 4b до 8b, а не на передовом уровне (поэтому я не считаю это окончательным) недостаточно обсуждаемое следствие: каждая серьезная лаборатория уже имеет кладбище промежуточных контрольных точек из прошлых запусков.. если обучение на основе слабых данных работает на 70b+, "потраченные" контрольные точки становятся ресурсом для обучения, который у вас уже есть сильные модели достигают плато, когда они перестают сомневаться в себе.. один практический способ вперед может заключаться в том, чтобы заставить их спорить с их прошлым «я» 👀 ссылка на статью: arxiv. org/abs/2602.08222