Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ramin Hasani
Das Modell ist so schnell, dass Josh die Videoaufnahme verlangsamen musste, um diese Demo zu präsentieren! @liquidai

Xenova14. März, 01:10
Echtzeit-Video-Untertitelung in Ihrem Browser mit dem LFM2-VL-Modell von @LiquidAI auf WebGPU.
Jeden Frame an einen Server zu senden, war nie die Lösung. Stellen Sie sich die Bandbreite, Latenz und Kosten vor.
Lokale Inferenz. Keine Serverkosten. Unendlich skalierbar.
Das ist der Weg.
97
schau dir das an 👌🏻

Sanchit monga5. März, 11:58
In nur 48 Stunden haben wir bei @RunAnywhereAI MetalRT entwickelt: Wir haben @Apple in ihrem eigenen Spiel geschlagen und die SCHNELLSTE LLM-Inferenz-Engine auf dem Markt für Apple Silicon geliefert.
- 570 tok/s Dekodierung @liquidai LFM 2.5-1.2B 4-Bit
- 658 tok/s Dekodierung @Alibaba_Qwen Qwen3-0.6B, 4-Bit
- 6,6 ms Zeit bis zum ersten Token
- 1,19× schneller als Apples eigenes MLX (identische Modell-Dateien)
- 1,67× schneller als llama.cpp im Durchschnitt
Wir haben Apple MLX, llama.cpp, uzu (von TryMirai) und Ollama über vier verschiedene 4-Bit-Modelle hinweg geschlagen, einschließlich des auf dem Gerät optimierten LFM2.5-1.2B auf einem einzelnen M4 Max.
Ich bin auf dieses hier gespannt!
#ycombinator #runanywhere #ondeviceai #applesilicon #mlx

368
Wirklich beeindruckende Veröffentlichung von hybriden Mini-Modellen vom Qwen-Team, wie immer!
Die Leute fragen, wie sie sich in Bezug auf Geschwindigkeit, Latenz und Speicher im Vergleich zu @liquidai’s LFMs für die Bereitstellung auf Geräten schlagen?
Hier ist ein schnelles Profiling auf dem Apple M3 Ultra:
> LFM2.5-1.2B ist 52% schneller im Dekodieren als das Qwen3.5-0.8B.
> LFM2-700M ist 71% schneller als Qwen3.5-0.8B beim Dekodieren
> LFM2-2.6B hat die gleiche Geschwindigkeit wie Qwen3.5-2B beim Dekodieren
> LFM2-700M benötigt 46% weniger Spitzen-Speicher als Qwen3.5-0.8B
> LFM2-2.6B benötigt 21% weniger Spitzen-Speicher als Qwen3.5-2B
> lfms prefill mit der gleichen Parametergröße ist im Allgemeinen 12% schneller als Qwen3.5
Wir haben die LFM2-Serie mit unserem Hardware-in-the-Loop-Meta-AI-Designansatz entwickelt, der es uns ermöglicht, die effizienteste Architektur für einen bestimmten Prozessor zu finden, ohne die Qualität zu opfern.
Dieser Test wurde auf dem Apple M3 Ultra mit 512 GB einheitlichem Speicher durchgeführt
Konfiguration:
> 512 Eingabe-Tokens, 128 Generierungs-Tokens,
> 5 Versuche pro Konfiguration
> Framework: MLX (mlx-lm / mlx-vlm)


Qwen2. März, 21:18
🚀 Introducing the Qwen 3.5 Small Model Series
Qwen3.5-0.8B · Qwen3.5-2B · Qwen3.5-4B · Qwen3.5-9B
✨ More intelligence, less compute.
These small models are built on the same Qwen3.5 foundation — native multimodal, improved architecture, scaled RL:
• 0.8B / 2B → tiny, fast, great for edge device
• 4B → a surprisingly strong multimodal base for lightweight agents
• 9B → compact, but already closing the gap with much larger models
And yes — we’re also releasing the Base models as well.
We hope this better supports research, experimentation, and real-world industrial innovation.
Hugging Face:
ModelScope:

324
Top
Ranking
Favoriten