Rubriques tendance
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

vLLM
🎉 Félicitations à @nvidia pour la sortie de Nemotron 3 Super — support jour-0 dans vLLM v0.17.1 ! Vérifié sur les GPU NVIDIA.
120B hybride MoE, seulement 12B actifs lors de l'inférence. Grandes améliorations par rapport au précédent Nemotron Super :
- 5x plus de débit
- 2x plus de précision sur l'Indice d'Intelligence d'Analyse Artificielle
- Prédiction Multi-Token (MTP) pour une génération de long format plus rapide
- Budget de réflexion configurable — ajustez la précision par rapport au coût par token par tâche
- Fenêtre de contexte de 1M tokens
Prend en charge BF16, FP8 et NVFP4. Entièrement ouvert : poids, ensembles de données, recettes.
Blog :
🤝 Merci à l'équipe Nemotron de @NVIDIAAIDev et aux contributeurs de la communauté vLLM !


NVIDIA AI Developer12 mars, 00:51
Présentation de NVIDIA Nemotron 3 Super 🎉
Modèle hybride Mamba-Transformer MoE avec 120 milliards de paramètres (12 milliards actifs)
Contexte natif de 1 million de tokens
Conçu pour des applications multi-agents à haute précision et efficaces en calcul
De plus, poids, ensembles de données et recettes entièrement ouverts pour une personnalisation et un déploiement faciles. 🧵
101
Félicitations à l'équipe @liquidai pour LFM2-24B-A2B ! 🎉 Support Day-0 pour LFM2-24B-A2B dans la version stable de vLLM ✅
24B de paramètres au total, seulement 2B actifs par token — tient dans 32 Go de RAM et atteint 293 tok/s sur H100 🔥


08833924 févr. 2026
Aujourd'hui, nous lançons notre plus grand modèle LFM2 : LFM2-24B-A2B 🐘
> 24B paramètres au total
> 2,3B actifs par token
> Construit sur notre architecture LFM2 hybride et consciente du matériel
Il combine le design rapide et économe en mémoire de LFM2 avec une configuration de Mixture of Experts, donc seulement 2,3B de paramètres s'activent à chaque exécution.
Le résultat : une efficacité de premier ordre, une inférence rapide en périphérie et une mise à l'échelle log-linéaire prévisible, le tout dans une empreinte MoE de 32 Go et 2B actifs.
🧵

696
🎉 Félicitations à @Alibaba_Qwen pour la série de modèles Medium Qwen3.5 — Qwen3.5-35B-A3B, 122B-A10B et 27B 🚀🚀🚀
Plus d'intelligence, moins de calcul — exactement ce que la communauté open source aime voir !
Découvrez notre recette et essayez-les tous avec vLLM aujourd'hui !

Qwen25 févr. 2026
🚀 Présentation de la série de modèles Qwen 3.5 Medium
Qwen3.5-Flash · Qwen3.5-35B-A3B · Qwen3.5-122B-A10B · Qwen3.5-27B
✨ Plus d'intelligence, moins de calcul.
• Qwen3.5-35B-A3B dépasse désormais Qwen3-235B-A22B-2507 et Qwen3-VL-235B-A22B — un rappel que meilleure architecture, qualité des données et RL peuvent faire progresser l'intelligence, pas seulement des comptes de paramètres plus importants.
• Qwen3.5-122B-A10B et 27B continuent de réduire l'écart entre les modèles de taille moyenne et les modèles de pointe — surtout dans des scénarios d'agents plus complexes.
• Qwen3.5-Flash est la version de production hébergée alignée avec 35B-A3B, avec :
– 1M de longueur de contexte par défaut
– Outils intégrés officiels
🔗 Hugging Face :
🔗 ModelScope :
🔗 API Qwen3.5-Flash :
Essayez dans Qwen Chat 👇
Flash :
27B :
35B-A3B :
122B-A10B :
Nous aimerions savoir ce que vous construisez avec.

302
Meilleurs
Classement
Favoris
