DApp Store | Centrum Web3 pro události a hry

Populární témata

0xFunky

BioMedical AI Start-up - CTO / Kaggle Competition - Mistr / @GooseCityDAO / Zakladatel @codechainAI

Inspirován Karpathyho autovýzkumem jsem naučil VibeHQ, aby se vyvíjelo samo sebe, ne aby vyvíjelo jednoho agenta, ale aby vyvinulo celou metodu kooperace více agentů. 7 plně automatických jízd bez jakéhokoliv manuálního zásahu: • Využití tokenů: 7,2 milionu → 5,7 milionu (vrcholný pokles o 62 %) • Snížení problémů s koordinací (duplicita práce atd.) :4 → 0 • Plýtvání PM tokeny: -91 % Loop: benchmark → kooperativní kvantizace a analýza LLM, režim selhání → /optimize-protokol, přepis koordinačního kódu → přestavba → opakování. AI sleduje, jak agenti selžou v týmové práci, analyzuje proč selhali, a pak změní svůj vlastní zdrojový kód, aby koordinovala logiku spolupráce, bez jakékoli manuální práce během celého procesu, což AI zcela umožňuje organizovat si vlastní tiché porozumění týmu. Po zvážení relevantních věcí autoresearch automaticky optimalizuje trénování modelu, předchozí Ralph byl autonomní smyčka jednoho agenta a Gastown spouštěl současně 20-30 Claudeových kódů orchestrace, ale nemá schopnost se vyvíjet, jsou velmi silné, ale později také vyvíjejí schopnosti jednoho agenta. Nikdo nerozvíjí týmovou práci samotnou, jak rozdělovat práci, jak se vyhýbat konfliktům, jak sdílet kontext a jak se navzájem odblokovat. Představte si, čím by se to stalo, kdyby uteklo: • Agenti si vytvářejí vlastní týmovou kulturu a pracovní chemii. • Přizpůsobit se každému projektu, přidělit tým o 3 nebo 7 osobách podle úrovně rozvoje projektu. • Čím více projektů děláte společně, tím silnější je váš tým. • Agenti mohou během projektu zařazovat nové kolegy a automaticky přeřazovat práci. Vážně, v co se to nakonec vyvine? Nevím, ale tohle je ta nejvzrušující část.

Před třemi dny jsem opustil autoresearch tuning nanochat na ~2 dny na modelu depth=12. Zjistil ~20 změn, které zlepšily ztrátu validace. Tyto změny jsem testoval včera a všechny byly aditivní a přeneseny do větších (hloubka=24) modelů. Když všechny tyto změny shrnu, dnes jsem změřil, že "Čas do GPT-2" v žebříčku klesl z 2,02 hodiny na 1,80 hodiny (~11% zlepšení), a toto bude nový záznam v žebříčku. Takže ano, jsou to skutečné zlepšení a skutečně mají význam. Jsem mírně překvapený, že můj úplně první naivní pokus už tak dobře fungoval navíc k tomu, co jsem považoval za poměrně ručně dobře naladěný projekt. Je to pro mě poprvé, protože jsem velmi zvyklý provádět iterativní optimalizaci tréninku neuronových sítí ručně. Přicházíte s nápady, realizujete je, kontrolujete, jestli fungují (lepší ztráta validace), vymýšlíte nové nápady na základě toho, čtete nějaké články pro inspiraci atd. To je základ toho, co dělám denně už dvě desetiletí. Vidět agenta, jak dělá celý tento pracovní postup od začátku do konce a sám, zatímco zvládl přibližně 700 změn autonomně, je šílené. Opravdu se zaměřil na sled výsledků experimentů a použil to k plánování dalších. Není to žádný nový, průlomový "výzkum" (zatím), ale všechny úpravy jsou "skutečné", dříve jsem je ručně nenašel a navíc se sčítají a dokonce zlepšily nanochat. Mezi větší věci patří například: - Všiml si, že můj QKnorm bez parametrů neměl připojený násobič škálování, takže moje pozornost byla příliš rozptýlená. Agent našel násobiče, které ji ostřují a ukazují na budoucí práci. - Zjistil, že Value Embeddings opravdu vyhovují regularizaci a já jsem žádnou neaplikoval (ups). - Zjistil, že moje pásmová pozornost byla příliš konzervativní (zapomněl jsem ji naladit). - Zjistil, že AdamW bety byly všechny rozbité. - Ladil harmonogram úbytku hmotnosti. - Ladil inicializaci sítě. A to je navíc ke všemu ladění, které jsem už dělal po delší dobu. Přesný commit je zde, z tohoto "kola 1" automatického výzkumu. Zahájím "druhé kolo" a současně se podívám, jak může více agentů spolupracovat na odemknutí paralelismu. Všechny LLM Frontier Labs to dělají. Je to finální souboj s bossem. Samozřejmě je to mnohem složitější ve velkém měřítku – nemáte jen jeden vlak. Py-soubor na ladění. Ale dělat to je "jen inženýrství" a bude to fungovat. Vytvoříte roj agentů, necháte je spolupracovat na ladění menších modelů, propagujete nejperspektivnější nápady na stále větší měřítka a lidé (volitelně) přispívají na okrajích. A obecněji, *jakákoliv metrika, na které vám záleží a která je rozumně efektivní na vyhodnocení (nebo má efektivnější proxy metriky, například trénování menší sítě), může být automaticky prozkoumána agentním rojem. Stojí za to přemýšlet, jestli do této kategorie také nespadá váš problém.

Top

Hodnocení

Oblíbené