FLUX.2 [klein] 9B acaba de ficar 2x mais rápido na edição de imagens, especialmente quando você usa várias imagens de referência. Mesma qualidade, sem aumento de preço.
Por trás das cenas: O KV-caching permite que o modelo evite cálculos redundantes nas suas imagens de referência. Quanto mais referências você usar, maior será o aumento de velocidade. A inferência é até 2x+ mais rápida para edição com múltiplas referências.
Estamos também a lançar pesos quantizados FP8, construídos com @NVIDIA_AI_PC Execute o Klein 9B com menos VRAM e uma inferência mais rápida para implementações locais e auto-hospedadas.
166