🏎️ gemma-webgpu: eine null-Abhängigkeit, blitzschnelle Gemma 1B, die vollständig in deinem Browser läuft. Voller Vibe, codiert von meinem Handy. 🔥 136,8 tok/s auf M4 Mac (3,3x schneller als transformers.js) 📱 101 tok/s auf iPhone 17 (270M), 34 tok/s (1B) Was wir von Grund auf gebaut haben: • 18 handgeschriebene WGSL-Compute-Shader mit fusionierten Operationen (fusedNormAdd spart 36 GPU-Dispatches pro Vorwärtsdurchlauf) • Q8_0-Dekodierung direkt auf der GPU — höhere Qualität als q4 UND schneller • Bereichsanfragen-Streaming lädt Gewichte schichtweise (~44MB-Chunks), lädt auf die GPU hoch, gibt den JS-Speicher sofort frei. Spitzenheap: ~50MB selbst für das 1GB-Modell • Dieser Streaming-Trick ist es, der 1B auf dem iPhone zum Laufen bringt. Es hält niemals das gesamte Modell im RAM 12KB gzipped. Null Abhängigkeiten. npm install gemma-webgpu