Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ramin Hasani
il modello è così veloce che Josh ha dovuto rallentare la cattura video per mostrare questa demo! @liquidai

Xenova14 mar, 01:10
Sottotitolazione video in tempo reale nel tuo browser con il modello LFM2-VL di @LiquidAI su WebGPU.
Inviare ogni fotogramma a un server non sarebbe mai stata la soluzione. Immagina la larghezza di banda, la latenza e i costi.
Inferenza locale. Nessun costo per il server. Scalabilità infinita.
Questa è la strada.
42
guarda questo 👌🏻

Sanchit monga5 mar, 11:58
In just 48 hours at @RunAnywhereAI we built MetalRT: beating @Apple at their own game and delivering the FASTEST LLM inference engine on the market for Apple Silicon right now.
- 570 tok/s decode @liquidai LFM 2.5-1.2B 4-bit
- 658 tok/s decode @Alibaba_Qwen Qwen3-0.6B, 4-bit
- 6.6 ms time-to-first-token
- 1.19× faster than Apple's own MLX (identical model files)
- 1.67× faster than llama.cpp on average
We crushed Apple MLX, llama.cpp, uzu(by TryMirai), and Ollama across four different 4-bit models, including the on-device optimized LFM2.5-1.2B on a single M4 Max.
Excited for this one!
#ycombinator #runanywhere #ondeviceai #applesilicon #mlx

339
Rilascio davvero impressionante di modelli ibridi tiny dal team Qwen, come sempre!
Le persone chiedono come si confrontano in termini di velocità, latenza e memoria con i LFMs di @liquidai per il deployment su dispositivo?
Ecco un rapido profiling su Apple M3 Ultra:
> LFM2.5-1.2B è il 52% più veloce in decodifica rispetto al Qwen3.5-0.8B.
> LFM2-700M è il 71% più veloce del Qwen3.5-0.8B in decodifica
> LFM2-2.6B ha la stessa velocità del Qwen3.5-2B in decodifica
> LFM2-700M utilizza il 46% in meno di memoria di picco rispetto al Qwen3.5-0.8B
> LFM2-2.6B utilizza il 21% in meno di memoria di picco rispetto al Qwen3.5-2B
> gli lfms prefill con la stessa dimensione dei parametri sono generalmente il 12% più veloci del Qwen3.5
Abbiamo progettato la serie LFM2 con il nostro approccio di design meta AI hardware-in-the-loop che ci consente di scoprire l'architettura più efficiente per un dato processore senza sacrificare la qualità.
Questo test è stato eseguito su Apple M3 Ultra, 512 GB di memoria unificata
Configurazione:
> 512 token di prompt, 128 token di generazione,
> 5 prove per configurazione
> Framework: MLX (mlx-lm / mlx-vlm)


Qwen2 mar, 21:18
🚀 Introducing the Qwen 3.5 Small Model Series
Qwen3.5-0.8B · Qwen3.5-2B · Qwen3.5-4B · Qwen3.5-9B
✨ More intelligence, less compute.
These small models are built on the same Qwen3.5 foundation — native multimodal, improved architecture, scaled RL:
• 0.8B / 2B → tiny, fast, great for edge device
• 4B → a surprisingly strong multimodal base for lightweight agents
• 9B → compact, but already closing the gap with much larger models
And yes — we’re also releasing the Base models as well.
We hope this better supports research, experimentation, and real-world industrial innovation.
Hugging Face:
ModelScope:

290
Principali
Ranking
Preferiti