FLUX.2 [klein] 9B acabou de ficar 2x mais rápido na edição de imagens, especialmente quando você usa múltiplas imagens de referência. Mesma qualidade, sem aumento de preço.
Por trás do capot: KV-caching permite que o modelo pule computação redundante nas suas imagens de referência. Quanto mais referências você usar, maior a velocidade. Inferência é até 2x+ mais rápida para edição multirreferência.
Também estamos lançando os pesos quantizados FP8, construídos com @NVIDIA_AI_PC Execute o Klein 9B com menos VRAM e inferência mais rápida para implantações locais e auto-hospedadas.
186