Trend-Themen
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

vLLM
Es ist großartig zu sehen, dass @AMD vLLM als eines der festgelegten Inferenz-Frameworks für den GPU MODE Hackathon ausgewählt hat. 🎉
Die Herausforderung: die End-to-End-Inferenzleistung von Kimi K2.5 1T FP4 auf 8× AMD Instinct MI355X zu pushen — unter Verwendung von vLLM oder AMD ATOM. Hauptpreis: 650.000 $.
Was das anders macht: die gewinnenden Optimierungen müssen in AMD ATOM oder vLLM upstream zusammenführbar sein. Verbesserungen, die in vLLM landen, kommen der gesamten Community zugute.
Phase 1 (Kernel-Optimierung) läuft bis zum 6. April.
Weitere Details ⬇️

AMD11. März, 03:31
Join the GPU MODE Hackathon, sponsored by AMD, and push the boundaries of LLM inference performance on leading open models, optimized for AMD Instinct MI355X GPUs.
Finalists will compete for the $1.1M total cash prize pool across two independent tracks, each focused on a specific model and inference stack.
Learn more and get registered here:

172
🎉 Glückwunsch an @nvidia zur Veröffentlichung von Nemotron 3 Super — Day-0-Unterstützung in vLLM v0.17.1! Verifiziert auf NVIDIA GPUs.
120B hybrides MoE, nur 12B aktiv bei der Inferenz. Große Verbesserungen gegenüber dem vorherigen Nemotron Super:
- 5x höhere Durchsatzrate
- 2x höhere Genauigkeit im Artificial Analysis Intelligence Index
- Multi-Token-Vorhersage (MTP) für schnellere Langform-Generierung
- Konfigurierbares Denkbudget — Genauigkeit gegen Token-Kosten pro Aufgabe einstellen
- 1M Token-Kontextfenster
Unterstützt BF16, FP8 und NVFP4. Vollständig offen: Gewichte, Datensätze, Rezepte.
Blog:
🤝 Danke an @NVIDIAAIDev Nemotron-Team und die Mitwirkenden der vLLM-Community!


NVIDIA AI Developer12. März, 00:51
Einführung des NVIDIA Nemotron 3 Super 🎉
Offenes 120B-Parameter (12B aktiv) hybrides Mamba-Transformer MoE-Modell
Native 1M-Token-Kontext
Entwickelt für recheneffiziente, hochgenaue Multi-Agenten-Anwendungen
Außerdem vollständig offene Gewichte, Datensätze und Rezepte für einfache Anpassung und Bereitstellung. 🧵
378
Herzlichen Glückwunsch an das @liquidai-Team zu LFM2-24B-A2B! 🎉 Unterstützung am Tag 0 für LFM2-24B-A2B in der stabilen Version von vLLM ✅
24B Gesamtparameter, nur 2B aktiv pro Token — passt in 32 GB RAM und erreicht 293 tok/s auf H100 🔥


08833924. Feb. 2026
Heute veröffentlichen wir unser größtes LFM2-Modell: LFM2-24B-A2B 🐘
> 24B Gesamtparameter
> 2,3B aktiv pro Token
> Basierend auf unserer hybriden, hardwarebewussten LFM2-Architektur
Es kombiniert das schnelle, speichereffiziente Design von LFM2 mit einem Mixture of Experts-Setup, sodass nur 2,3B Parameter bei jedem Lauf aktiviert werden.
Das Ergebnis: branchenführende Effizienz, schnelle Edge-Inferenz und vorhersehbares log-lineares Scaling, alles in einem 32GB, 2B-aktiven MoE-Fußabdruck.
🧵

1,08K
Top
Ranking
Favoriten
