DApp Store | Centrum Web3 pro události a hry

Populární témata

Awni Hannun

AI @apple

V poslední době jsem trochu přemýšlel o neustálém učení, zejména pokud jde o dlouhodobé agenty (a o provádění několika experimentů s hračkami s MLX). Současný stav rychlé kompakce spolu s rekurzivními subagenty je ve skutečnosti pozoruhodně účinný. Zdá se, že s tím můžeme dojít docela daleko. (Prompt kompakce = když se kontextové okno přiblíží plnému, model vygeneruje kratší souhrn a poté začne od začátku pomocí souhrnu. Rekurzivní podagenti = rozkládají úkoly na menší úkoly, aby se vypořádali s konečnými kontextovými okny) Rekurzivní podagenti budou pravděpodobně vždy užiteční. Ale rychlá komplikace se zdá být trochu neefektivní (i když velmi účinný) trik. Znám ještě dvě další alternativy: online doladění a 2. techniky založené na paměti. Online doladění: natrénujte některé LoRA adaptéry na datech, se kterými model narazí během nasazení. Obecně jsem v tomhle méně optimistický. Kromě inženýrských výzev spojených s nasazením vlastních modelů / adaptérů pro každý případ použití / uživatele existují i základní problémy: - Online jemné ladění je ze své podstaty nestabilní. Pokud trénujete na datech v cílové doméně, můžete katastrofálně zničit schopnosti, které necílíte. Jedním ze způsobů, jak to obejít, je udržet smíšenou datovou sadu s novým a starým. Ale to se rychle zkomplikuje. - Jak vlastně vypadají data pro online doladění? Generujete Q/A páry na základě cílové domény pro trénování modelu? Máte také problém s prioritizací informací v datové směsi vzhledem k konečné kapacitě. Techniky založené na pamětí: v podstatě politika pro uchování užitečné paměti a vyhazování toho, co není potřeba. Tohle mi připadá mnohem víc jako způsob, jakým si lidé uchovávají informace: "použij je, nebo o ně přijdeš". K tomu potřebujete jen pár věcí: - Politika vystěhování/udržení zaměstnanců. Něco jako "uchovejte paměť, pokud byla alespoň jednou v posledních 10 tisíc tokenech přístupná". - Politika musí být efektivně vypočitatelná - Místo, kde model ukládá a přistupuje k dlouhodobé paměti. Možná by stačila řídce využívaná KV cache. Pro efektivní přístup k velké paměti by však mohla být lepší hierarchická datová struktura.

Top

Hodnocení

Oblíbené