Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Це справді круто.
Це змусило мене глибше задуматися про персоналізовану реальну житлову лінію: який справжній сенс персоналізувати модель у світі, де базові моделі можуть так швидко застарілими?
Реальність у сфері ШІ така, що нові моделі виходять кожні кілька тижнів, кожна краща за попередню. І темп лише прискорюється, як ми бачимо на Hugging Face Hub. Ми недовго від того, щоб кращі базові моделі з'являлися щодня.
Тут є дослідницький прогалина, над яким майже ніхто не працює. Більшість досліджень персоналізації LLM передбачають фіксовану базову модель, але дуже мало хто запитує, що відбувається з цією персоналізацією при зміні базової моделі. Уявіть собі переход від Лами 3 до Лами 4. Усі налаштовані вподобання, сигнали винагороди та LoRA раптом прив'язані до вчорашньої моделі.
Як користувач чи команда, ви не хочете повторювати кожну нову модель свої вподобання. Але ти також не хочеш застрягати на старішому пристрої лише тому, що він тебе знає.
Це можна назвати «передавальністю моделі RL»: як можна перечистити, зберегти та автоматично застосувати RL-трасування, сигнал винагороди або представлення переваг, навчене на моделі N, зберігати та автоматично повторно застосовувати до моделі N+1 без надмірної участі користувача? Ми вирішили це в SFT, де навчальний набір даних можна зберігати і повторно використовувати для навчання майбутньої моделі. Ми також якось працювали над версією цього у фазах RLHF, але це залишається незрозумілим загалом при використанні RL у реальному світі.
Є деякі пов'язані теми (RLTR для переносних трас, P-RLHF і PREMIUM для представлення користувачів, незалежних від моделей, HCP для портативних протоколів преференцій), але повний цикл здається мені недостатньо вивченим.
Деякі з цих питань стосуються позаполітики, а інші — можливостей проти персоналізації: які зі старих кастомізацій/виправлень нова модель вже виконує з коробки, а які насправді є специфічними для користувача чи команди, щоб їх коли-небудь вирішили за замовчуванням? Яку ти зберігаєш навичку на даний момент, але реальний життя дозволяє виходити за межі письмових рекомендацій.
Я, безумовно, пропустив деяку роботу, тож, будь ласка, залишайте в коментарях якісь хороші роботи, які бачили на цю тему.
Найкращі
Рейтинг
Вибране
