Populární témata
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ramin Hasani
Modelka je tak rychlá, že Josh musel zpomalit snímání videa, aby ukázal tuto ukázku! @liquidai

Xenova14. 3. 01:10
Titulky v reálném čase ve vašem prohlížeči s modelem LFM2-VL od @LiquidAI na WebGPU.
Posílat každý snímek na server nikdy nemělo být řešením. Představte si šířku pásma, latenci a náklady.
Lokální inference. Žádné náklady na server. Nekonečně škálovatelné.
Takhle se to dělá.
29
Podívejte se na 👌🏻 to

Sanchit monga5. 3. 11:58
In just 48 hours at @RunAnywhereAI we built MetalRT: beating @Apple at their own game and delivering the FASTEST LLM inference engine on the market for Apple Silicon right now.
- 570 tok/s decode @liquidai LFM 2.5-1.2B 4-bit
- 658 tok/s decode @Alibaba_Qwen Qwen3-0.6B, 4-bit
- 6.6 ms time-to-first-token
- 1.19× faster than Apple's own MLX (identical model files)
- 1.67× faster than llama.cpp on average
We crushed Apple MLX, llama.cpp, uzu(by TryMirai), and Ollama across four different 4-bit models, including the on-device optimized LFM2.5-1.2B on a single M4 Max.
Excited for this one!
#ycombinator #runanywhere #ondeviceai #applesilicon #mlx

329
Opravdu působivé vydání hybridních malých modelů od týmu Qwen jako vždy!
Lidé se ptají, jak se srovnávají v rychlosti, latenci a paměti s LFM od @liquidai pro nasazení přímo na zařízení?
Zde je rychlý přehled Apple M3 Ultra:
> LFM2.5-1.2B je v dekódování o 52 % rychlejší než Qwen3.5-0.8B.
> LFM2-700M je při dekódování o 71 % rychlejší než Qwen3.5-0.8B
> LFM2-2.6B má při dekódování stejnou rychlost jako Qwen3.5-2B
> LFM2-700M využívá o 46 % méně špičkové paměť než Qwen3.5-0.8B
> LFM2-2.6B používá o 21 % méně špičkové paměť než Qwen3.5-2B
> předplnění lfms se stejnou velikostí parametru je obecně o 12 % rychlejší než Qwen3.5
Navrhli jsme řadu LFM2 s naším hardwarově integrovaným meta AI přístupem, který nám umožňuje najít nejefektivnější architekturu pro daný procesor bez kompromisů na kvalitě.
Tento test probíhá na Apple M3 Ultra, 512 GB sjednocené paměti
Konfigurace:
> 512 promptových tokenů, 128 generačních tokenů,
> 5 pokusů na konfiguraci
> Framework: MLX (mlx-lm / mlx-vlm)


Qwen2. 3. 21:18
🚀 Představujeme řadu Qwen 3.5 Small Model Series
Qwen3.5-0.8B · Qwen3.5-2B · Qwen3.5-4B · Qwen3.5-9B
✨ Více inteligence, méně výpočetní kapacity.
Tyto malé modely jsou postaveny na stejném základu Qwen3.5 — nativní multimodální, vylepšená architektura, škálované RL:
• 0,8B / 2B → malé, rychlé, skvělé pro edge zařízení
• 4B → překvapivě silná multimodální základna pro lehké látky
• 9B → kompaktní, ale už se tak dotýkal mnohem větších modelů
A ano — vydáváme také základní modely.
Doufáme, že to lépe podporuje výzkum, experimentování a skutečné průmyslové inovace.
Objímající obličej:
ModelScope:

281
Top
Hodnocení
Oblíbené