DApp Store | Hub Web3 pentru evenimente și jocuri

Subiecte populare

Robert Youssef

🚨 ULTIMA ORĂ: Cercetătorii Meta au arătat unui model 2 milioane de ore de video. Fără etichete. Niciun manual de fizică. Nicio supraveghere deloc. Apoi i-au arătat un clip în care un obiect dispare în spatele unui perete și nu se mai întoarce niciodată. Modelul l-a marcat ca fiind greșit. 🤯 Învățase permanența obiectelor. Consistența formei. Dinamica coliziunilor. Complet din privit. Ce este și mai surprinzător: chiar și un model antrenat pe doar o săptămână de video unic a obținut performanțe peste șanse la detectarea încălcărilor fizice. Nu e o întâmplare. Asta e un principiu. Ideea cheie din lucrare este că acest lucru funcționează doar atunci când modelul prezice într-un spațiu de reprezentare învățat, nu în pixeli bruti. Modelul trebuie să construiască un model intern al lumii, comprimat și abstract, și să prezică împotriva acestuia. Predicția în spațiul pixelilor eșuează. LLM-urile multimodale care raționează prin text eșuează. Doar arhitectura care construiește reprezentări abstracte în timp ce prezice lipsa inputului senzorial, ceva apropiat de modul în care neurocercetătorii descriu codarea predictivă, dobândește cu adevărat intuiția fizicii. Ceea ce înseamnă că cunoștințele de bază pe care cercetătorii le presupuneau că trebuie să fie încorporate ar putea fi doar observație la scară largă. Bebelușii învață permanența obiectelor uitându-se la lucruri. Se pare că același principiu este valabil și aici. Acum e partea despre care nimeni nu vorbește. Dacă observația singură învață un model regulile lumii fizice, ce se întâmplă când aplici același principiu sistemelor de producție? Producția are și fizică. Nu gravitația. Dar reguli la fel de consistente: care implementări provoacă incidente la 3 dimineața, ce combinații de configurație interacționează periculos, ce căi de cod se degradează silențios sub încărcare, ce modificări de serviciu cauzează eșecuri la două sărituri distanță. Aceste modele sunt încorporate în mii de traiectorii. Push de cod, schimbări metrice, tichete de clienți, cronologii incidentelor. În mare parte neobservat. Cu siguranță fără etichete. Nimeni nu scrie un runbook care să spună "dacă serviciul A se implementează cu flag X activ și serviciul B depășește 70% CPU, latența pe serviciul C scade cu 40% în 6 minute." Dar acest tipar există. Este repetabil. Și stă acum în datele tale de observabilitate, invizibil pentru că nimeni nu a construit un model pentru a-l găsi. Aceasta este diferența pe care @playerzeroai încearcă să o reducă. Nu încă un alergător de teste. Nu un alt prag de alertă. Un model de lume de producție care învață ce lucruri se rup din observația acumulată, la fel cum modelul lui Meta a învățat gravitația. Nu verifică acoperirea testului. Prezice traiectoriile de cedare. O săptămână de video a fost suficientă pentru a învăța că obiectele solide nu trec prin pereți. Întrebarea este câtă observație de producție are nevoie sistemul tău înainte ca un model să înceapă să prezică unde va ceda al tău data viitoare. Lucrarea Meta sugerează că ștacheta ar putea fi mai mică decât se așteaptă oricine.

AI-ul tău a uitat în liniște tot ce i-ai spus. Nu întâmplător. Nu tare. Sistematic. Începând cu deciziile care contează cel mai mult. > Restricția pe care ai impus-o acum trei luni "nu folosi niciodată Redis, clientul a veto-o după un incident de producție." Dispărută. Restricția regiunii de implementare GDPR. Dispărută. Limita de reîncercări pe care ai testat-o empiric după eșecul în cascadă. Dispărută. > Modelul nu ți-a spus niciodată. Tocmai a început să folosească setările implicite. > Aceasta se numește putregaiul contextului. Iar cercetătorii de la Cambridge și Independent tocmai au cuantificat exact cât de grav este. > Orice sistem AI de producție care rulează suficient de mult va comprima în cele din urmă contextul pentru a face loc informațiilor noi. Acea compresie este catastrofal de pierdere. L-au testat direct: 2.000 de fapte comprimate la 36,7× au lăsat 60% din baza de cunoștințe permanent irecuperabilă. Nu a halucinat. Nu greșesc. Pur și simplu a dispărut. Modelul a spus sincer că nu mai are informațiile. > Apoi au testat ceva mai rău. Au integrat 20 de constrângeri reale de proiect într-o conversație de 88 de ture, genul de constrângeri care apar natural în orice proiect de lungă durată, apoi au aplicat compresie în cascadă, exact ca sistemele de producție. După o rundă: 91% conservat. După două runde: 62%. După trei runde: 46%. > Modelul a continuat să lucreze cu toată încrederea pe tot parcursul. Generarea de ieșiri care încălcau constrângerile uitate. Niciun semnal de eroare. Fără avertisment. Doar o revenire tăcută la valori implicite rezonabile care s-au dovedit greșite pentru situația ta specifică. > Au testat acest lucru pe patru modele frontieră. Claude Sonnet 4.5, Claude Sonnet 4.6, Opus, GPT-5.4. Fiecare s-a prăbușit sub compresie. Nu este o problemă de model. Este arhitectural. → 60% din fapte pierdute permanent după o singură trecere de compresie → 54% din constrângerile proiectului dispar după trei runde de compresie în cascadă → GPT-5.4 a scăzut la 0% acuratețe la doar 2× compresie → Even Opus a păstrat doar 5% din fapte la compresie de 20× → Memoria în context costă 14.201 dolari/an la 7.000 de fapte, comparativ cu 56 dolari/an pentru alternativa Laboratoarele de AI știu asta. Soluția lor este ferestrele de context mai mari. O fereastră de 10 milioane de jetoane este o găleată mai mare. Tot e o găleată. Compactarea este inevitabilă pentru orice sistem cu funcționare îndelungată. Dimensiunea ferestrei determină doar când începe uitatul, nu dacă se întâmplă.

🚨 ULTIMA ORĂ: cercetătorii au plantat un singur actor rău intenționat într-un grup de agenți LLM. întreaga rețea nu a reușit să ajungă la un consens. aceasta este Problema Generalilor Bizantini. Un coșmar de 40 de ani al sistemelor distribuite. Și acum este problema și a pipeline-ului tău de agenți. în contexte complet benigne, fără niciun actor rău intenționat, agenții LLM tot nu reușesc să convergă asupra valorilor comune. Și devine mai rău pe măsură ce adaugi mai mulți agenți în grup. Modul de eșec este revelator. Nu este o corupție subtilă a valorilor. Nu e vorba de un agent care a strecurat un răspuns greșit. modelele pur și simplu... să amână. Ei se opresc cu time-out. Se învârt în cerc. Conversația nu ajunge niciodată la un acord. acest lucru contează pentru că toată agitația AI multi-agent presupune că coordonarea funcționează. roiuri de agenți autonomi, rezolvarea colaborativă a problemelor, sisteme AI descentralizate. Totul presupune că, dacă pui mai multe LLM-uri într-o cameră și le dai un protocol, acestea vor converge într-o decizie comună. Consensul bizantin este una dintre cele mai vechi și mai studiate probleme din sistemele distribuite. Algoritmii clasici au rezolvat-o acum decenii, cu garanții matematice stricte. întrebarea era dacă agenții LLM puteau realiza același lucru prin comunicare în limbaj natural în loc de protocoale formale. Răspunsul, cel puțin pentru moment, este nu. Și motivul merită să stai cu asta. Algoritmii tradiționali de consens funcționează deoarece fiecare nod urmează un protocol determinist identic. LLM-urile sunt stocastice. același prompt produce ieșiri diferite între execuții. Un acord valabil în runda a 3-a se poate dizolva în runda 4, pe măsură ce agenții își revizuiesc raționamentul după ce văd răspunsurile colegilor. Aceasta este nepotrivirea fundamentală: protocoalele de consens presupun mașini de stări deterministe. LLM-urile sunt exact opusul. De asemenea, înseamnă că "mai mulți agenți = răspunsuri mai bune" are un plafon pe care nimeni nu-l măsoară. La anumite dimensiuni de grup, eșecurile de coordonare și convergența depășesc orice beneficiu din perspective diverse. Implicația practică este inconfortabilă pentru oricine construiește sisteme multi-agent pentru sarcini cu miză mare. Acordul fiabil nu este o proprietate emergentă a implicării agenților inteligenți. Trebuie să fie concepută explicit, cu garanții formale, nu să fie sperată să apară. Implementăm sisteme multi-agent în finanțe, sănătate, infrastructură autonomă. Iar problema consensului, cea mai de bază primitivă a coordonării, nu este încă rezolvată.

Limită superioară

Clasament

Favorite