V poslední době jsem trochu přemýšlel o neustálém učení, zejména pokud jde o dlouhodobé agenty (a o provádění několika experimentů s hračkami s MLX).
Současný stav rychlé kompakce spolu s rekurzivními subagenty je ve skutečnosti pozoruhodně účinný. Zdá se, že s tím můžeme dojít docela daleko. (Prompt kompakce = když se kontextové okno přiblíží plnému, model vygeneruje kratší souhrn a poté začne od začátku pomocí souhrnu. Rekurzivní podagenti = rozkládají úkoly na menší úkoly, aby se vypořádali s konečnými kontextovými okny)
Rekurzivní podagenti budou pravděpodobně vždy užiteční. Ale rychlá komplikace se zdá být trochu neefektivní (i když velmi účinný) trik.
Znám ještě dvě další alternativy: online doladění a 2. techniky založené na paměti.
Online doladění: natrénujte některé LoRA adaptéry na datech, se kterými model narazí během nasazení. Obecně jsem v tomhle méně optimistický. Kromě inženýrských výzev spojených s nasazením vlastních modelů / adaptérů pro každý případ použití / uživatele existují i základní problémy:
- Online jemné ladění je ze své podstaty nestabilní. Pokud trénujete na datech v cílové doméně, můžete katastrofálně zničit schopnosti, které necílíte. Jedním ze způsobů, jak to obejít, je udržet smíšenou datovou sadu s novým a starým. Ale to se rychle zkomplikuje.
- Jak vlastně vypadají data pro online doladění? Generujete Q/A páry na základě cílové domény pro trénování modelu? Máte také problém s prioritizací informací v datové směsi vzhledem k konečné kapacitě.
Techniky založené na pamětí: v podstatě politika pro uchování užitečné paměti a vyhazování toho, co není potřeba. Tohle mi připadá mnohem víc jako způsob, jakým si lidé uchovávají informace: "použij je, nebo o ně přijdeš". K tomu potřebujete jen pár věcí:
- Politika vystěhování/udržení zaměstnanců. Něco jako "uchovejte paměť, pokud byla alespoň jednou v posledních 10 tisíc tokenech přístupná".
- Politika musí být efektivně vypočitatelná
- Místo, kde model ukládá a přistupuje k dlouhodobé paměti. Možná by stačila řídce využívaná KV cache. Pro efektivní přístup k velké paměti by však mohla být lepší hierarchická datová struktura.