🏎️ gemma-webgpu: en nullavhengighetsfri, lynrask Gemma 1B som kjører helt i nettleseren din. Full vibe kodet fra mobilen min. 🔥 136,8 tok/s på M4 Mac (3,3 ganger raskere enn transformers.js) 📱 101 tok/s på iPhone 17 (270M), 34 tok/s (1B) Hva vi bygde fra bunnen av: • 18 håndskrevne WGSL compute shaders med fused ops (fusedNormAdd sparer 36 GPU-dispatches per forward pass) • Q8_0 avkvantisering direkte på GPU — høyere kvalitet enn Q4 OG raskere • Strømming av rekkeviddeforespørsler laster lag for lag (~44MB biter), laster opp til GPU, frigjør umiddelbart JS-minne. Maksimal heap: ~50MB selv for 1GB-modellen • Det er denne strømmetrikset som gjør at 1B kjører på iPhone. den har aldri hele modellen i RAM 12KB gzippet. Null avhengigheter. npm installer gemma-webgpu