DApp Store | Piattaforma Web3 per eventi e giochi

Argomenti di tendenza

Robert Youssef

La tua AI ha smesso di ricordare tutto ciò che le hai detto. Non casualmente. Non rumorosamente. Sistematicamente. A partire dalle decisioni che contano di più. > Il vincolo che hai impostato tre mesi fa "non usare mai Redis, il cliente lo ha vietato dopo un incidente in produzione." Sparito. La restrizione sulla regione di distribuzione GDPR. Sparita. Il limite di ripetizione che hai testato empiricamente dopo il fallimento a cascata. Sparito. > Il modello non te lo ha mai detto. Ha semplicemente iniziato a usare i valori predefiniti. > Questo si chiama decadimento del contesto. E i ricercatori di Cambridge e Independent hanno appena quantificato esattamente quanto sia grave. > Ogni sistema AI in produzione che funziona abbastanza a lungo alla fine comprimerà il suo contesto per fare spazio a nuove informazioni. Quella compressione è catastroficamente perdente. L'hanno testata direttamente: 2.000 fatti compressi a 36,7× hanno lasciato il 60% della base di conoscenza permanentemente irrecuperabile. Non allucinato. Non sbagliato. Semplicemente sparito. Il modello ha onestamente riportato di non avere più le informazioni. > Poi hanno testato qualcosa di peggio. Hanno incorporato 20 vincoli di progetto reali in una conversazione di 88 turni, il tipo di vincoli che emergono naturalmente in qualsiasi progetto a lungo termine, e poi hanno applicato una compressione a cascata esattamente come fanno i sistemi di produzione. Dopo un giro: 91% preservato. Dopo due giri: 62%. Dopo tre giri: 46%. > Il modello ha continuato a lavorare con piena fiducia per tutto il tempo. Generando output che violavano i vincoli dimenticati. Nessun segnale di errore. Nessun avviso. Solo un silenzioso ritorno ai valori predefiniti ragionevoli che si sono rivelati sbagliati per la tua situazione specifica. > Hanno testato questo su quattro modelli all'avanguardia. Claude Sonnet 4.5, Claude Sonnet 4.6, Opus, GPT-5.4. Ognuno di essi è collassato sotto compressione. Non è un problema del modello. È architettonico. → 60% dei fatti persi permanentemente dopo un singolo passaggio di compressione → 54% dei vincoli di progetto spariti dopo tre giri di compressione a cascata → GPT-5.4 è sceso a 0% di accuratezza con solo 2× di compressione → Anche Opus ha mantenuto solo il 5% dei fatti a 20× di compressione → La memoria in contesto costa $14.201/anno per 7.000 fatti contro $56/anno per l'alternativa I laboratori AI sanno questo. La loro soluzione sono finestre di contesto più grandi. Una finestra di 10 milioni di token è un secchio più grande. È comunque un secchio. La compattazione è inevitabile per qualsiasi sistema a lungo termine. La dimensione della finestra determina solo quando inizia l'oblio, non se accade.

🚨 NOTIZIA DELL'ULTIMO MINUTO: i ricercatori hanno inserito un singolo attore malevolo all'interno di un gruppo di agenti LLM. l'intera rete non è riuscita a raggiungere un consenso. questo è il Problema dei Generali Bizantini. un incubo dei sistemi distribuiti che dura da 40 anni. e ora è anche un problema per il tuo pipeline di agenti. in ambienti completamente benigni, senza attori malevoli, gli agenti LLM falliscono ancora nel convergere su valori condivisi. e la situazione peggiora man mano che aggiungi più agenti al gruppo. la modalità di fallimento è rivelatrice. non si tratta di una sottile corruzione dei valori. non è un agente che introduce una risposta sbagliata. i modelli semplicemente... si bloccano. scadono. girano in tondo. la conversazione non arriva mai a un accordo. questo è importante perché l'intero hype dell'AI multi-agente presume che il coordinamento funzioni. sciami di agenti autonomi, risoluzione collaborativa dei problemi, sistemi AI decentralizzati. tutto ciò presuppone che se metti più LLM in una stanza e dai loro un protocollo, convergeranno su una decisione condivisa. il consenso bizantino è uno dei problemi più antichi e studiati nei sistemi distribuiti. gli algoritmi classici lo hanno risolto decenni fa con rigorose garanzie matematiche. la domanda era se gli agenti LLM potessero raggiungere la stessa cosa attraverso la comunicazione in linguaggio naturale invece di protocolli formali. dal momento, la risposta è no. e il motivo merita di essere considerato. gli algoritmi di consenso tradizionali funzionano perché ogni nodo segue un protocollo deterministico identico. gli LLM sono stocastici. lo stesso prompt produce output diversi tra le esecuzioni. un accordo che tiene nel turno 3 può dissolversi nel turno 4 mentre gli agenti rivedono il loro ragionamento dopo aver visto le risposte dei pari. questo è il disallineamento fondamentale: i protocolli di consenso presumono macchine a stati deterministici. gli LLM sono l'opposto di questo. significa anche che "più agenti = risposte migliori" ha un limite che nessuno sta misurando. a una certa dimensione del gruppo, il sovraccarico di coordinamento e i fallimenti di convergenza superano qualsiasi beneficio derivante da prospettive diverse. l'implicazione pratica è scomoda per chiunque stia costruendo sistemi multi-agente per compiti ad alto rischio. un accordo affidabile non è una proprietà emergente del mettere agenti intelligenti in conversazione. deve essere ingegnerizzato esplicitamente, con garanzie formali, non sperato in esistenza. stiamo implementando sistemi multi-agente in finanza, sanità, infrastrutture autonome. e il problema del consenso, il primitivo di coordinamento più basilare, non è ancora risolto.

Principali

Ranking

Preferiti