Un modelo de 24 mil millones de parámetros simplemente se ejecutaba en un portátil y elegía la herramienta adecuada en menos de medio segundo. La verdadera historia es que los agentes que llaman herramientas finalmente llegaron a ser lo suficientemente rápidos como para sentirse como software. Liquid construyó LFM2-24B-A2B usando una arquitectura híbrida que mezcla bloques de convolución con atención de consulta agrupada en una proporción 1:3. Solo se activan 2.300 millones de parámetros por token, aunque el modelo completo contiene 24.000 millones. Ese patrón de activación tan escaso es la razón por la que cabe en 14,5 GB de memoria y despliega herramientas en 385 milisegundos en un M4 Max. La arquitectura fue diseñada mediante búsqueda hardware-in-the-loop, lo que significa que optimizaron la estructura del modelo probándolo directamente en los chips en los que se ejecutaría. No hay capa de traducción en la nube. No hay API ida y vuelta. El modelo, las herramientas y tus datos permanecen en la máquina. Esto desbloquea tres cosas que antes eran poco prácticas: 1. Las industrias reguladas pueden ejecutar agentes en portátiles de empleados sin que los datos salgan del dispositivo. 2. Los desarrolladores pueden prototipar flujos de trabajo multiherramienta sin gestionar claves API ni límites de tasa. 3. Los equipos de seguridad obtienen registros completos de auditoría sin que los subprocesadores del proveedor estén en juego. El modelo alcanzó un 80% de precisión en la selección de herramientas en un solo paso en 67 herramientas que abarcan 13 servidores MCP. Si este rendimiento se mantiene a escala, dos supuestos deben actualizarse. Primero, los agentes en el dispositivo ya no son un compromiso entre la duración de la batería; Son una función de cumplimiento. Segundo, el cuello de botella en los flujos de trabajo agenticos está pasando de la capacidad del modelo a la madurez del ecosistema de herramientas.
088339
088339hace 21 horas
> selección media de herramientas de 385 ms. > 67 herramientas distribuidas en 13 servidores MCP. > 14,5GB de memoria. > Cero llamadas de red. LocalCowork es un agente de IA que funciona en un MacBook. Código abierto. 🧵
Trabajo increíble de: @liquidai @ramin_m_h
219