FLUX.2 [klein] 9B ble nettopp 2x raskere til bildebehandling, spesielt når du bruker flere referansebilder. Samme kvalitet, ingen prisøkning.
Under panseret: KV-caching lar modellen hoppe over redundant beregning på referansebildene dine. Jo flere referanser du bruker, desto større blir hastighetsøkningen. Inferens er opptil 2x+ raskere for multireferanse-redigering.
Vi slipper også FP8 kvantiserte vekter, bygget med @NVIDIA_AI_PC Kjør Klein 9B med mindre VRAM og raskere inferenser for lokale og selvhostede distribusjoner.
162