DApp Store | Piattaforma Web3 per eventi e giochi | OKX Wallet

Argomenti di tendenza

#

Bonk Eco continues to show strength amid $USELESS rally

#

Pump.fun to raise $1B token sale, traders speculating on airdrop

LAUNCHCOIN+4,36%

#

Boop.Fun leading the way with a new launchpad on Solana.

header

Ramin Hasani

Ramin Hasani

Ramin Hasani14 mar, 01:54

il modello è così veloce che Josh ha dovuto rallentare la cattura video per mostrare questa demo! @liquidai

Xenova

Xenova14 mar, 01:10

Sottotitolazione video in tempo reale nel tuo browser con il modello LFM2-VL di @LiquidAI su WebGPU. Inviare ogni fotogramma a un server non sarebbe mai stata la soluzione. Immagina la larghezza di banda, la latenza e i costi. Inferenza locale. Nessun costo per il server. Scalabilità infinita. Questa è la strada.

42

Ramin Hasani

Ramin Hasani5 mar, 12:02

guarda questo 👌🏻

Sanchit monga

Sanchit monga5 mar, 11:58

In just 48 hours at @RunAnywhereAI we built MetalRT: beating @Apple at their own game and delivering the FASTEST LLM inference engine on the market for Apple Silicon right now. - 570 tok/s decode @liquidai LFM 2.5-1.2B 4-bit - 658 tok/s decode @Alibaba_Qwen Qwen3-0.6B, 4-bit - 6.6 ms time-to-first-token - 1.19× faster than Apple's own MLX (identical model files) - 1.67× faster than llama.cpp on average We crushed Apple MLX, llama.cpp, uzu(by TryMirai), and Ollama across four different 4-bit models, including the on-device optimized LFM2.5-1.2B on a single M4 Max. Excited for this one! #ycombinator #runanywhere #ondeviceai #applesilicon #mlx

339

Ramin Hasani

Ramin Hasani3 mar, 14:28

Rilascio davvero impressionante di modelli ibridi tiny dal team Qwen, come sempre! Le persone chiedono come si confrontano in termini di velocità, latenza e memoria con i LFMs di @liquidai per il deployment su dispositivo? Ecco un rapido profiling su Apple M3 Ultra: > LFM2.5-1.2B è il 52% più veloce in decodifica rispetto al Qwen3.5-0.8B. > LFM2-700M è il 71% più veloce del Qwen3.5-0.8B in decodifica > LFM2-2.6B ha la stessa velocità del Qwen3.5-2B in decodifica > LFM2-700M utilizza il 46% in meno di memoria di picco rispetto al Qwen3.5-0.8B > LFM2-2.6B utilizza il 21% in meno di memoria di picco rispetto al Qwen3.5-2B > gli lfms prefill con la stessa dimensione dei parametri sono generalmente il 12% più veloci del Qwen3.5 Abbiamo progettato la serie LFM2 con il nostro approccio di design meta AI hardware-in-the-loop che ci consente di scoprire l'architettura più efficiente per un dato processore senza sacrificare la qualità. Questo test è stato eseguito su Apple M3 Ultra, 512 GB di memoria unificata Configurazione: > 512 token di prompt, 128 token di generazione, > 5 prove per configurazione > Framework: MLX (mlx-lm / mlx-vlm)

Qwen

Qwen2 mar, 21:18

🚀 Introducing the Qwen 3.5 Small Model Series Qwen3.5-0.8B · Qwen3.5-2B · Qwen3.5-4B · Qwen3.5-9B ✨ More intelligence, less compute. These small models are built on the same Qwen3.5 foundation — native multimodal, improved architecture, scaled RL: • 0.8B / 2B → tiny, fast, great for edge device • 4B → a surprisingly strong multimodal base for lightweight agents • 9B → compact, but already closing the gap with much larger models And yes — we’re also releasing the Base models as well. We hope this better supports research, experimentation, and real-world industrial innovation. Hugging Face: ModelScope:

290

Principali

Ranking

Preferiti

©2017 - 2026 WEB3.OKX.COM

Italiano 简体中文繁體中文 English Tiếng Việt Русский Español (Latinoamérica)Bahasa Indonesia Français Deutsch Polski Čeština Română Português (Portugal)Português (Brasil)Українська Español (España)Nederlands العربية 日本語 Norsk (bokmål)Suomi Svenska Türkçe

Ulteriori informazioni su OKX Web 3

Scarica Academy Chi siamo Lavora con noi Contattaci Termini di servizio Informativa X (ex Twitter)

Prodotto

Dashboard del portafoglio Swap OKX NFT Guadagna Costruisci Explorer Sicurezza

Assistenza

Centro assistenza Verifica ufficiale Comunicazioni Schema commissioni DEX Connettiti con OKX Portafoglio bitcoin Portafoglio Ethereum Portafoglio Solana