Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

0xFunky
BioMedical AI Start-up - CTO / Kaggle Competition - Mistr / @GooseCityDAO / Zakladatel @codechainAI
Teď je to opravdu emotivní
"Ruční gravírování přední části je v podstatě u konce"
AI + Figma je jako otevírání a zavěšování, najít správnou metodu může rychle vygravírovat téměř stejnou verzi jako Figma a lze ji upravovat v obou směrech bez manuální úpravy.
V minulosti jsem trávil nejvíc času rytím na gravírování, což by při OCD záchvatu mohlo trvat celý den, ale teď AI dokáže rytí dokončit za pár minut a míra obnovy je stále příliš vysoká...
Obdiv se zrodil právě v této době.
48
Inspirován Karpathyho autovýzkumem jsem naučil VibeHQ, aby se vyvíjelo samo sebe, ne aby vyvíjelo jednoho agenta, ale aby vyvinulo celou metodu kooperace více agentů.
7 plně automatických jízd bez jakéhokoliv manuálního zásahu:
• Využití tokenů: 7,2 milionu → 5,7 milionu (vrcholný pokles o 62 %)
• Snížení problémů s koordinací (duplicita práce atd.) :4 → 0
• Plýtvání PM tokeny: -91 %
Loop: benchmark → kooperativní kvantizace a analýza LLM, režim selhání → /optimize-protokol, přepis koordinačního kódu → přestavba → opakování.
AI sleduje, jak agenti selžou v týmové práci, analyzuje proč selhali, a pak změní svůj vlastní zdrojový kód, aby koordinovala logiku spolupráce, bez jakékoli manuální práce během celého procesu, což AI zcela umožňuje organizovat si vlastní tiché porozumění týmu.
Po zvážení relevantních věcí autoresearch automaticky optimalizuje trénování modelu, předchozí Ralph byl autonomní smyčka jednoho agenta a Gastown spouštěl současně 20-30 Claudeových kódů
orchestrace, ale nemá schopnost se vyvíjet, jsou velmi silné, ale později také vyvíjejí schopnosti jednoho agenta.
Nikdo nerozvíjí týmovou práci samotnou, jak rozdělovat práci, jak se vyhýbat konfliktům, jak sdílet kontext a jak se navzájem odblokovat.
Představte si, čím by se to stalo, kdyby uteklo:
• Agenti si vytvářejí vlastní týmovou kulturu a pracovní chemii.
• Přizpůsobit se každému projektu, přidělit tým o 3 nebo 7 osobách podle úrovně rozvoje projektu.
• Čím více projektů děláte společně, tím silnější je váš tým.
• Agenti mohou během projektu zařazovat nové kolegy a automaticky přeřazovat práci.
Vážně, v co se to nakonec vyvine? Nevím, ale tohle je ta nejvzrušující část.


Andrej Karpathy10. 3. 06:28
Před třemi dny jsem opustil autoresearch tuning nanochat na ~2 dny na modelu depth=12. Zjistil ~20 změn, které zlepšily ztrátu validace. Tyto změny jsem testoval včera a všechny byly aditivní a přeneseny do větších (hloubka=24) modelů. Když všechny tyto změny shrnu, dnes jsem změřil, že "Čas do GPT-2" v žebříčku klesl z 2,02 hodiny na 1,80 hodiny (~11% zlepšení), a toto bude nový záznam v žebříčku. Takže ano, jsou to skutečné zlepšení a skutečně mají význam. Jsem mírně překvapený, že můj úplně první naivní pokus už tak dobře fungoval navíc k tomu, co jsem považoval za poměrně ručně dobře naladěný projekt.
Je to pro mě poprvé, protože jsem velmi zvyklý provádět iterativní optimalizaci tréninku neuronových sítí ručně. Přicházíte s nápady, realizujete je, kontrolujete, jestli fungují (lepší ztráta validace), vymýšlíte nové nápady na základě toho, čtete nějaké články pro inspiraci atd. To je základ toho, co dělám denně už dvě desetiletí. Vidět agenta, jak dělá celý tento pracovní postup od začátku do konce a sám, zatímco zvládl přibližně 700 změn autonomně, je šílené. Opravdu se zaměřil na sled výsledků experimentů a použil to k plánování dalších. Není to žádný nový, průlomový "výzkum" (zatím), ale všechny úpravy jsou "skutečné", dříve jsem je ručně nenašel a navíc se sčítají a dokonce zlepšily nanochat. Mezi větší věci patří například:
- Všiml si, že můj QKnorm bez parametrů neměl připojený násobič škálování, takže moje pozornost byla příliš rozptýlená. Agent našel násobiče, které ji ostřují a ukazují na budoucí práci.
- Zjistil, že Value Embeddings opravdu vyhovují regularizaci a já jsem žádnou neaplikoval (ups).
- Zjistil, že moje pásmová pozornost byla příliš konzervativní (zapomněl jsem ji naladit).
- Zjistil, že AdamW bety byly všechny rozbité.
- Ladil harmonogram úbytku hmotnosti.
- Ladil inicializaci sítě.
A to je navíc ke všemu ladění, které jsem už dělal po delší dobu. Přesný commit je zde, z tohoto "kola 1" automatického výzkumu. Zahájím "druhé kolo" a současně se podívám, jak může více agentů spolupracovat na odemknutí paralelismu.
Všechny LLM Frontier Labs to dělají. Je to finální souboj s bossem. Samozřejmě je to mnohem složitější ve velkém měřítku – nemáte jen jeden vlak. Py-soubor na ladění. Ale dělat to je "jen inženýrství" a bude to fungovat. Vytvoříte roj agentů, necháte je spolupracovat na ladění menších modelů, propagujete nejperspektivnější nápady na stále větší měřítka a lidé (volitelně) přispívají na okrajích.
A obecněji, *jakákoliv metrika, na které vám záleží a která je rozumně efektivní na vyhodnocení (nebo má efektivnější proxy metriky, například trénování menší sítě), může být automaticky prozkoumána agentním rojem. Stojí za to přemýšlet, jestli do této kategorie také nespadá váš problém.

123
Tohle je nejlepší a zároveň nejúzkostnější období.
Měsíční předplatné AI nástrojů je čím dál dražší, GPT-5.4 je po samotném testu opravdu dobrý, takže jsem upgradoval přímo, Claude musí být maximálně 20x až plný, Google si také předplatil Ultra plán, hlavně proto, aby mohl používat Antigravity a používat Claude Opus 4.6.
V posledních dnech jsem se soustředil na optimalizaci multiagentního frameworku, který jsem vyvinul ve VibHQ, a použil jsem tento rámec k vytvoření platformy, která je interoperabilní mezi mobilními telefony a počítači pro správu všech CLI agentů.
Použil jsem to pro spoustu projektových týmů, včetně týmu pro optimalizaci strategie PM botů, kde AI plánuje, provádí a sama QA.
Jednočlenná firma s celým profesionálním týmem AI inženýrů.
184
Top
Hodnocení
Oblíbené
