Un modello con 24 miliardi di parametri è appena stato eseguito su un laptop e ha scelto lo strumento giusto in meno di mezzo secondo. La vera storia è che gli agenti di chiamata degli strumenti sono finalmente diventati abbastanza veloci da sembrare software. Liquid ha costruito LFM2-24B-A2B utilizzando un'architettura ibrida che mescola blocchi di convoluzione con attenzione a query raggruppate in un rapporto di 1:3. Solo 2,3 miliardi di parametri si attivano per token, anche se il modello completo contiene 24 miliardi. Questo schema di attivazione sparsa è il motivo per cui si adatta in 14,5 GB di memoria e invia strumenti in 385 millisecondi su un M4 Max. L'architettura è stata progettata attraverso una ricerca hardware-in-the-loop, il che significa che hanno ottimizzato la struttura del modello testandola direttamente sui chip su cui sarebbe stata eseguita. Nessun livello di traduzione cloud. Nessun roundtrip API. Il modello, gli strumenti e i tuoi dati rimangono sulla macchina. Questo sblocca tre cose che prima erano impraticabili: 1. Le industrie regolamentate possono eseguire agenti sui laptop dei dipendenti senza che i dati lascino il dispositivo. 2. Gli sviluppatori possono prototipare flussi di lavoro multi-strumento senza gestire chiavi API o limiti di frequenza. 3. I team di sicurezza ottengono audit trail completi senza subprocessori dei fornitori nel loop. Il modello ha raggiunto l'80% di accuratezza nella selezione di strumenti a passo singolo su 67 strumenti che coprono 13 server MCP. Se questa performance si mantiene su larga scala, due assunzioni devono essere aggiornate. In primo luogo, gli agenti on-device non sono più un compromesso sulla durata della batteria; sono una funzionalità di conformità. In secondo luogo, il collo di bottiglia nei flussi di lavoro agentici si sta spostando dalla capacità del modello alla maturità dell'ecosistema degli strumenti.
088339
08833911 ore fa
> 385ms selezione media degli strumenti. > 67 strumenti su 13 server MCP. > 14.5GB di memoria utilizzata. > Zero chiamate di rete. LocalCowork è un agente AI che gira su un MacBook. Open source. 🧵
Lavoro straordinario da: @liquidai @ramin_m_h
140