Model o 24 miliardach parametrów właśnie uruchomił się na laptopie i wybrał odpowiednie narzędzie w mniej niż pół sekundy. Prawdziwa historia polega na tym, że agenci wywołujący narzędzia w końcu stali się wystarczająco szybcy, aby przypominać oprogramowanie. Liquid zbudował LFM2-24B-A2B, używając hybrydowej architektury, która łączy bloki konwolucyjne z grupową uwagą zapytań w proporcji 1:3. Tylko 2,3 miliarda parametrów aktywuje się na token, mimo że pełny model ma 24 miliardy. To rzadkie wzorce aktywacji są powodem, dla którego mieści się w 14,5 GB pamięci i wywołuje narzędzia w 385 milisekund na M4 Max. Architektura została zaprojektowana poprzez wyszukiwanie z hardware-in-the-loop, co oznacza, że zoptymalizowali strukturę modelu, testując ją bezpośrednio na chipach, na których będzie działać. Żadna warstwa tłumaczenia w chmurze. Żaden okrążający API. Model, narzędzia i twoje dane pozostają na maszynie. To odblokowuje trzy rzeczy, które wcześniej były niepraktyczne: 1. Regulowane branże mogą uruchamiać agentów na laptopach pracowników, nie pozwalając na opuszczenie danych z urządzenia. 2. Programiści mogą prototypować przepływy pracy z wieloma narzędziami, nie zarządzając kluczami API ani limitami szybkości. 3. Zespoły bezpieczeństwa otrzymują pełne ścieżki audytu bez podwykonawców dostawcy w pętli. Model osiągnął 80% dokładności w wyborze narzędzi w pojedynczym kroku wśród 67 narzędzi rozproszonych na 13 serwerach MCP. Jeśli ta wydajność utrzyma się w skali, dwie założenia wymagają aktualizacji. Po pierwsze, agenci na urządzeniach nie są już kompromisem w zakresie żywotności baterii; są funkcją zgodności. Po drugie, wąskie gardło w agentowych przepływach pracy przesuwa się z możliwości modelu na dojrzałość ekosystemu narzędzi.
088339
08833911 godz. temu
> 385ms średni czas wyboru narzędzi. > 67 narzędzi na 13 serwerach MCP. > 14,5 GB pamięci. > Zero wywołań sieciowych. LocalCowork to agent AI, który działa na MacBooku. Oprogramowanie open source. 🧵
Niesamowita praca od: @liquidai @ramin_m_h
143