Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Сильна модель може гірше вчитися складним речам, коли стає впевненішою... Оскільки неправильні відповіді знижуються настільки низько, що градієнти фактично зникають WMSS перевертає цикл: ви тренуєте сильну модель проти її власної, слабшої контрольної точки, а не лише поточних прогнозів Слабка контрольна точка все одно присвоює нетривіальну ймовірність правдоподібним, але неправильним відповідям... Тренування на цьому м'якшому розподілі змушує сильну модель постійно відоокремлювати правильне від майже правильного, замість того, щоб відшліфувати те, у що вона вже вірить У статті повідомляється про значні покращення у математиці + програмуванні, з більшими підйомами на складніших завданнях... Але тестували на основі параметрів від 4b до 8b, а не за шкалою Frontier (тому я не вважаю це вирішеним). Недостатньо обговорюване наслідок: у кожній серйозній лабораторії вже є кладовище проміжних контрольних пунктів із минулих запусків... Якщо слабкоорієнтоване навчання тримається на рівні 70b+, «марно» контрольні точки стають ресурсом для навчання, на якому ви вже сидите Сильні моделі досягають плато, коли перестають сумніватися в собі... Один із практичних шляхів — змусити їх сперечатися зі своїм минулим «я 👀» Посилання на статтю: arxiv. org/abs/2602.08222

Найкращі

Рейтинг

Вибране