🏎️ gemma-webgpu: беззалежний, надзвичайно швидкий Gemma 1B, який працює повністю у вашому браузері. Повний вібраційний код, закодований з мого мобільного. 🔥 136,8 ток/с на M4 Mac (у 3,3 рази швидше, ніж transformers.js) 📱 101 tok/s на iPhone 17 (270M), 34 tok/s (1B) Що ми створили з нуля: • 18 рукописних обчислювальних шейдерів WGSL з об'єднаними операціями (fusedNormAdd економить 36 диспетчерів GPU за один прямий проход) • Q8_0 деквантування безпосередньо на GPU — вища якість, ніж у четвертому кварталі, І швидше • Потоковий запит на діапазон завантажує ваги шар за шаром (~44 МБ блоків), завантажує їх на GPU, негайно звільняє пам'ять JS. Пікова купа: ~50 МБ навіть для моделі на 1 ГБ • Саме цей трюк зі стрімінгом дозволяє 1B працювати на iPhone. він ніколи не зберігає повну модель в оперативній пам'яті 12KB gzip. Жодних залежностей. npm install gemma-webgpu