Toto je shrnutí výzkumné práce nazvané <a href=" Hybridní časově uvědomělá architektura pozornosti pro dlouhodobé sekvenční doporučení</a>. Pokud máte rádi tyto druhy analýz, přidejte se k <a href=" nebo nás sledujte na <a href=" <h2>Nemožná výměna</h2> <p>Po léta čelil každý, kdo stavěl doporučovací systém, skutečnému dilematu. Sekvence chování uživatele mohou dosahovat tisíců nebo desítek tisíc interakcí. Abychom pochopili tuto historii, musíme odpovědět na zdánlivě jednoduchou otázku: vzhledem ke všemu, co uživatel už dříve udělal, co bychom měli doporučit dál?</p> <p>Standardní přístup využívá softmax pozornost, mechanismus, který počítá detailní srovnání mezi současným okamžikem a každou minulou interakcí. Matematicky je to elegantní. Funguje to skvěle. Výpočetní náklady však škálují kvadraticky s délkou sekvence. Při 10 000 interakcích provádíte přibližně 100 milionů srovnání jen proto, abyste udělali jedno doporučení. Pokud to rozšíříte na miliony uživatelů a tisíce doporučení za sekundu, vaše náklady na infrastrukturu se stanou nepřijatelnými.</p> <p>Takže praktikující dělají kompromis. Obracejí se k lineárním mechanismům pozornosti, které snižují výpočetní složitost z kvadratické na lineární. Matematika je chytrá a rychlostní nárůsty jsou skutečné. Problém je, že rychlost má svou cenu. Tyto mechanismy udržují běžící "stav", který se aktualizuje při každé nové interakci, ale tento stav má omezenou kapacitu. Je to jako knihovník, který si může jen poznamenat hrubé vzory na malý klipboard místo toho, aby konzultoval celé záznamy. Ztrácíte přesnost potřebnou k rozpoznání konkrétních behaviorálních sekvencí, které ukazují záměr uživatele.

Tento kompromis definoval obor. Efektivní metody obětují přesnost. Přesné metody obětují rychlost. A nejvíce trpí ti s ultra-dlouhými sekvencemi, ti silní a těžcí hráči, kteří mají nejzajímavější chování, od kterého se mohou učit.

Výzkumníci stojící za HyTRec to sledovali a položili jinou otázku: Co když to není jeden problém, který vyžaduje jediné řešení?

Jak uživatelé skutečně přemýšlejí

Poznatek začíná jednoduchým pozorováním toho, jak uživatelské preference skutečně fungují. Existují dva zásadně odlišné typy preferenčních signálů a fungují na zcela odlišných časových škálách.

Vaše

dlouhodobé preference pro stabilitu vycházejí z hluboké historie. Pokud jste klikli na technologické přístroje 500krát za dva roky, je to silný důkaz, že máte rádi technologie. Tato preference se týden od týdne příliš nemění. Důležité je, že k pochopení vzorce nepotřebujete každou z těchto 500 interakcí. Totéž se můžete naučit z 50 z nich, nebo dokonce z hrubého statistického souhrnu. Být přibližný tomuto signálu téměř nic neztrácí.

Vaše

krátkodobé nárůsty záměru jsou výsledkem nedávného chování. Pokud jste za poslední dvě hodiny klikli na tři zimní kabáty, právě teď nakupujete kabáty. Tento signál je křehký. Je snadné to přehlédnout, pokud to průměrujete s tisíci dalších interakcí z před několika měsíců. Ale je neuvěřitelně předpovídavý pro to, co uděláte za pět minut.

Tyto nejsou jen odlišné v míře, ale i v druhu. Jeden je stabilní a snáší aproximaci. Druhá je volatilní a vyžaduje přesnost. Současné metody se však snaží řešit obojí jedním mechanismem pozornosti, nevyhnutelně optimalizující jedno na úkor druhého.

Hybridní řešení

Elegantní krok je přestat se snažit budovat jeden mechanismus, který by dělal všechno. Místo toho rozdělte práci tak, aby odrážela skutečný způsob, jakým uživatelé prohlížejí.

Architektura vede dvěma paralelními cestami. V prvním díle prochází celá vaše historická sekvence, i když obsahuje 9 000 interakcí z posledních šesti měsíců, lineární větví pozornosti. Tato větev nemusí být přesná. Je to o budování širokého porozumění vaší celkové kategorii chutí. Protože používá lineární pozornost, dokončuje se v čase úměrném délce sekvence, nikoli délka sekvence na druhou. Je to rychlé.

Ve druhé cestě vaše nedávné interakce, možná 1 000 z posledních dvou týdnů, procházejí větví softmax pozornosti. Tato větev si může dovolit být drahá, protože pracuje s malým kouskem dat. Vytváří přesné představy toho, co byste mohli chtít právě teď. Děláte nákladné výpočty, ale s malým časovým oknem.

Každá pobočka vytváří znázornění "co bychom měli doporučit." Architektura je pak inteligentně spojí. Obnovili jste přesnost softmax pozornosti při zachování rychlosti lineární pozornosti, protože každá nyní funguje ve své správné doméně.


Rámec HyTRec

HyTRec rozděluje dlouhé sekvence chování uživatelů mezi dva specializované mechanismy pozornosti, což umožňuje nezávislé řešení stabilních preferencí a nedávných záměrných výkyvů.

Tohle není drobná úprava. Výpočetní složitost zůstává lineární v délce sekvence při práci na sekvencích 10krát delších, než jaké dokázaly zvládnout předchozí přístupy. Ale v architektuře je háček.

Důležité dát z nedávných signálů význam

Výzvou hybridního systému je, že lineární oddělení pozornosti zaznamenalo tisíce interakcí. Větev softmax jich zažila stovky. Čistou hlasitostí je signál lineární větve hlasitější. Ale v doporučení je důležitější aktuálnost než objem. Kliknutí z dneška vám řekne víc o tom, co někdo chce, než kliknutí před šesti měsíci.

Pokud obě větve zvládnete stejně, zastaralá data překryjí čerstvá data. Vyřešili jste výpočetní problém, ale vytvořili jste problém s odezvou.

Řešení se nazývá Temporal-Aware Delta Network, neboli TADN. Mechanismus dělá něco jednoduchého: dynamicky zvyšuje váhu čerstvých behaviorálních signálů a zároveň potlačuje historický šum.

Představte si mechanismus, který se každé části sekvence ptá: "Kolik ti je?" Nové interakce mají vyšší váhu. Staré interakce mají nižší váhu. Neděje se to podle pevného harmonogramu, ale je to naučeno z dat. Síť objevuje vzorce jako: "Pro tohoto uživatele se vzorce chování mění každých pár dní, takže interakce starší než týden by měly být váženy na polovinu."

Bez TADN by hybridní systém dával stále zastaralejší doporučení, jak se preference uživatele mění. Díky němu zůstává systém vnímavý ke změnám. Nedávné signály mají přirozeně větší vliv na doporučení, ale síť se přesně učí, jak velký vliv dává smysl pro každého uživatele a typ interakce.

Výsledky v reálném světě

Výzkumníci testovali HyTRec na obrovských datových sadách, přičemž skutečné sekvence chování uživatelů dosahovaly desítek tisíc interakcí na uživatele. Nejde o čistá akademická data, ale o nepořádek ve velkém měřítku.

Na rychlosti záleží na výsledcích. HyTRec udržuje složitost lineární inference. Zdvojnásobíte délku sekvence a čas odvození se přibližně zdvojnásobí. Nezčtyřnásobí se to jako softmax attention. Při sekvencích o délce 10 000 tento rozdíl určuje, zda můžete doporučit za 50 milisekund nebo 5 sekund. Na platformě, která obsluhuje miliony uživatelů, je tento rozdíl hranicí mezi proveditelným a nemožným.

...