🏎️ gemma-webgpu: una Gemma 1B senza dipendenze, super veloce, che gira interamente nel tuo browser. Tutto il codice è stato scritto dal mio cellulare. 🔥 136,8 tok/s su M4 Mac (3,3 volte più veloce di transformers.js) 📱 101 tok/s su iPhone 17 (270M), 34 tok/s (1B) Cosa abbiamo costruito da zero: • 18 shader di calcolo WGSL scritti a mano con operazioni fuse (fusedNormAdd risparmia 36 dispatch GPU per ogni passaggio in avanti) • Dequantizzazione Q8_0 direttamente sulla GPU — qualità superiore rispetto a q4 E più veloce • Streaming di richieste di intervallo che carica i pesi strato per strato (~44MB a pezzi), carica sulla GPU, libera immediatamente la memoria JS. Picco heap: ~50MB anche per il modello da 1GB • Quel trucco di streaming è ciò che consente a 1B di funzionare su iPhone. Non tiene mai l'intero modello in RAM 12KB gzippato. Zero dipendenze. npm install gemma-webgpu