Detta är en sammanfattning av en forskningsartikel kallad <a href=" En hybrid temporal-medveten uppmärksamhetsarkitektur för lång beteendesekvensiell rekommendation</a>. Om du gillar den här typen av analys, gå med i <a href=" eller följ oss på <a href=" <h2>Den omöjliga avvägningen</h2> <p>I åratal stod alla som byggde ett rekommendationssystem inför ett verkligt dilemma. Användarbeteendesekvenser kan sträcka sig till tusentals eller tiotusentals interaktioner. Att förstå den historien kräver att man besvarar en bedrägligt enkel fråga: med tanke på allt en användare har gjort tidigare, vad bör vi rekommendera härnäst?</p> <p>Standardmetoden använder softmax-uppmärksamhet, en mekanism som beräknar detaljerade jämförelser mellan det aktuella ögonblicket och varje enskild tidigare interaktion. Matematiskt är det elegant. Det fungerar utmärkt. Men beräkningskostnaden skalar kvadratisk med sekvenslängden. Vid 10 000 interaktioner gör du ungefär 100 miljoner jämförelser bara för att ge en rekommendation. Skala det över miljontals användare och tusentals rekommendationer per sekund, och dina infrastrukturkostnader blir för höga.</p> <p>Så utövare kompromisser. De vänder sig till linjära uppmärksamhetsmekanismer, som minskar beräkningskomplexiteten från kvadratisk till linjär. Matematiken är smart och hastighetsökningarna är verkliga. Problemet: den hastigheten har ett pris. Dessa mekanismer upprätthåller ett körande "tillstånd" som uppdateras vid varje ny interaktion, men detta tillstånd har begränsad kapacitet. Det är som en bibliotekarie som bara kan skriva ner grova mönster på en liten skrivplatta istället för att konsultera fullständiga register. Du förlorar precisionen som krävs för att känna igen specifika beteendesekvenser som indikerar användarens avsikt.

Denna avvägning har definierat området. Effektiva metoder offrar noggrannhet. Precisa metoder offrar snabbhet. Och de användare som lider mest är de med ultralånga sekvenser, de kraftfulla användarna och tunga engagerare som har det mest intressanta beteendet att lära sig av.

Forskarna bakom HyTRec såg detta utspela sig och ställde en annan fråga: Vad händer om detta egentligen inte är ett enda problem som kräver en enda lösning?

Hur användare faktiskt tänker

Insikten börjar med en enkel observation om hur användarpreferenser faktiskt fungerar. Du har två fundamentalt olika typer av preferenssignaler, och de verkar på helt olika tidsskalor.

Dina långsiktiga stabila preferenser kommer från en djup historia. Om du har klickat på tekniska prylar 500 gånger under två år är det ett starkt bevis på att du gillar teknik. Denna preferens varierar inte mycket från vecka till vecka. Viktigt är att du inte behöver varenda en av dessa 500 interaktioner för att förstå mönstret. Du kan lära dig samma sak från 50 av dem, eller till och med från en grov statistisk sammanfattning. Att vara ungefärlig med denna signal förlorar nästan ingenting.

Dina kortsiktiga avsiktskickar kommer från nyligen beteende. Om du klickade på tre vinterjackor de senaste två timmarna, letar du efter jackor just nu. Den här signalen är skör. Det är lätt att missa om man jämför det med tusentals andra interaktioner från månader tillbaka. Men det är otroligt förutsägbart för vad du kommer att göra under de kommande fem minuterna.

Dessa är inte bara olika i grad, de är olika i slag. En är stabil och kan tolerera approximationer. Den andra är volatil och kräver precision. Ändå försöker befintliga metoder hantera båda med en enda uppmärksamhetsmekanism, och optimerar oundvikligen för den ena på bekostnad av den andra.

Den hybrida lösningen

Det eleganta är att sluta försöka bygga en enda mekanism som gör allt. Dela istället upp arbetet på ett sätt som speglar hur användarna faktiskt surfar.

Arkitekturen följer två parallella vägar. I den första går hela din historiska sekvens, även om den innehåller 9 000 interaktioner från de senaste sex månaderna, genom en linjär uppmärksamhetsgren. Den här grenen behöver inte vara exakt. Det handlar om att bygga en bred förståelse för din övergripande smakkategori. Eftersom den använder linjär uppmärksamhet slutförs den i tid proportionell mot sekvenslängd, inte sekvenslängd i kvadrat. Det går snabbt.

I den andra vägen går dina senaste interaktioner, kanske 1 000 från de senaste två veckorna, genom en softmax-uppmärksamhetsgren. Denna gren kan vara dyr eftersom den arbetar med en liten databit. Den ger exakta representationer av vad du kan vilja ha just nu. Du gör dyra beräkningar, men inom ett litet fönster.

Varje gren ger en representation av "vad bör vi rekommendera." Sedan kombinerar arkitekturen dem på ett intelligent sätt. Du har återställt precisionen i softmax-uppmärksamhet samtidigt som du behåller hastigheten för linjär uppmärksamhet, eftersom varje fokus nu opererar i sitt rätta domän.


HyTRecs ramverk

HyTRec delar upp långa användarbeteendesekvenser mellan två specialiserade uppmärksamhetsmekanismer, vilket möjliggör att stabila preferenser och senaste intentionsspikar hanteras oberoende av varandra.

Detta är ingen liten justering. Beräkningskomplexiteten förblir linjär i sekvenslängd samtidigt som sekvenser är tio gånger längre än tidigare metoder effektivt kunde hantera. Men det finns en hake som gömmer sig i arkitekturen.

Att göra de senaste signalerna viktiga

Utmaningen med ett hybridsystem är att den linjära uppmärksamhetsgrenen har sett tusentals interaktioner. Softmax-avdelningen har sett hundratals. Med ren volym är den linjära grenens signal högre. Men när det gäller rekommendation är nylighet viktigare än volym. Ett klick från idag berättar mer om vad någon vill ha än ett klick från för sex månader sedan.

Om du behandlar båda grenarna lika överröstar den instängda datan den färska datan. Du har löst beräkningsproblemet men skapat ett responsivitetsproblem.

Lösningen kallas Temporal-Aware Delta Network, eller TADN. Mekanismen gör något enkelt: dynamiskt förstärker nya beteendesignaler samtidigt som historiskt brus undertrycks.

Föreställ dig en grindmekanism som frågar varje del av sekvensen: "Hur gammal är du?" Nya interaktioner ger högre vikt. Gamla interaktioner får lägre vikter. Detta sker inte på ett fast schema, det lärs av data. Nätverket upptäcker mönster som: "För denna användare förändras beteendemönster var tredje dag, så interaktioner som är äldre än en vecka bör vägas till halvstyrka."

Utan TADN skulle hybridsystemet ge alltmer uttjatade rekommendationer i takt med att användarens preferenser förändras. Med den förblir systemet lyhört för förändringar. Nyligen publicerade signaler har naturligtvis större inflytande över rekommendationer, men nätverket lär sig exakt hur mycket inflytande som är meningsfullt för varje användare och interaktionstyp.

Verkliga resultat

Forskarna testade HyTRec på enorma datamängder med faktiska användarbeteendesekvenser som sträckte sig till tiotusentals interaktioner per användare. Det här är inte ren akademisk data, det är kaos i produktionsskala.

När

det gäller hastighet spelar resultaten roll. HyTRec upprätthåller linjär inferenskomplexitet. Dubbla sekvenslängden, och slutledningstiden fördubblas ungefär. Det fyrdubblas inte som softmax-uppmärksamhet skulle göra. Vid sekvenser på 10 000 sekunder avgör denna skillnad om du kan rekommendera på 50 millisekunder eller 5 sekunder. På en plattform som betjänar miljontals användare är skillnaden gränsen mellan genomförbart och omöjligt.

...