Trendande ämnen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Det här är riktigt häftigt.
Det fick mig att tänka djupare på personlig RL: vad är egentligen poängen med att personifiera en modell i en värld där basmodeller kan bli föråldrade så snabbt?
Verkligheten inom AI är att nya modeller släpps varannan eller var tredje vecka, varje modell bättre än den förra. Och tempot ökar bara, som vi ser på Hugging Face Hub. Vi är inte långt ifrån att bättre basmodeller släpps dagligen.
Det finns ett forskningsgap i RL här som nästan ingen arbetar med. De flesta LLM-personaliseringsforskning utgår från en fast basmodell, men väldigt få frågar vad som händer med den personaliseringen när du byter basmodell. Tänk på att gå från Llama 3 till Llama 4. Alla inställda preferenser, belöningssignaler och LoRA är plötsligt kopplade till gårdagens modell.
Som användare eller team vill du inte lära om dina preferenser varje ny modell. Men du vill inte heller fastna på en äldre bara för att den känner dig.
Vi skulle kunna kalla detta "RL-modellöverföringsbarhet": hur kan en RL-spårning, en belöningssignal eller en preferensrepresentation tränad på modell N destilleras, lagras och automatiskt återappliceras på modell N+1 utan alltför mycket användarinblandning? Vi löste det i SFT där en träningsdatamängd kan lagras och återanvändas för att träna en framtida modell. Vi tog också itu med en version av det i RLHF-faser på något sätt, men det är fortfarande oklart mer generellt när man använder RL i verkliga världen.
Det finns några relaterade trådar (RLTR för överförbara resonemangsspår, P-RLHF och PREMIUM för modelloberoende användarrepresentationer, HCP för portabla preferensprotokoll) men hela loopen verkar för mig underutforskad.
Vissa av dessa frågor handlar om off-policy men andra handlar om kapabiliteter kontra personalisering: vilka av de gamla anpassningarna/fixarna hanterar den nya modellen redan direkt, och vilka är faktiskt användar-/teamspecifika och kan någonsin lösas som standard? Som du skulle lagra i en färdighet för tillfället men som RL tillåter att sträcka sig bortom den skriftliga vägledningsnivån.
Jag har säkert missat en del arbete, så posta gärna bra arbete du sett om detta ämne i kommentarerna.
Topp
Rankning
Favoriter
