FLUX.2 [klein] 9B ist jetzt 2x schneller bei der Bildbearbeitung, insbesondere wenn Sie mehrere Referenzbilder verwenden. Gleiche Qualität, keine Preiserhöhung.
Unter der Haube: KV-Caching ermöglicht es dem Modell, redundante Berechnungen bei Ihren Referenzbildern zu überspringen. Je mehr Referenzen Sie verwenden, desto größer ist die Beschleunigung. Die Inferenz ist bis zu 2x+ schneller bei der Bearbeitung mit mehreren Referenzen.
Wir veröffentlichen auch FP8-quantisierte Gewichte, die mit @NVIDIA_AI_PC erstellt wurden. Führen Sie Klein 9B mit weniger VRAM und schnellerer Inferenz für lokale und selbstgehostete Bereitstellungen aus.
180