Zo ongelooflijk. @nsthorat is een van de beste ingenieurs die ik ken en het is ongelooflijk wat getalenteerde mensen kunnen doen met agenten die namens hen werken. We staan op het punt om zoveel meer coole dingen in de wereld te hebben.
🏎️ gemma-webgpu: een zero-dependency, razendsnelle Gemma 1B die volledig in je browser draait. Volledige vibe gecodeerd vanaf mijn mobiele telefoon.
🔥 136,8 tok/s op M4 Mac (3,3x sneller dan transformers.js)
📱 101 tok/s op iPhone 17 (270M), 34 tok/s (1B)
Wat we vanaf nul hebben gebouwd:
• 18 handgeschreven WGSL compute shaders met samengevoegde bewerkingen (fusedNormAdd bespaart 36 GPU dispatches per forward pass)
• Q8_0 dequantisatie direct op GPU — hogere kwaliteit dan q4 EN sneller
• Range request streaming laadt gewichten laag voor laag (~44MB chunks), uploadt naar GPU, maakt JS-geheugen onmiddellijk vrij. Piekniveau: ~50MB zelfs voor het 1GB model
• Die streamingtruc is wat 1B op iPhone laat draaien. het houdt nooit het volledige model in RAM
12KB gzipped. Geen afhankelijkheden. npm install gemma-webgpu
Het is simpel: Anthropic, net als elk bedrijf, heeft het recht om te beslissen wat ze wel of niet maken. De overheid heeft ook het recht om met hen samen te werken of niet. Waar het slecht wordt, is wanneer de overheid hen bedreigt omdat ze iets niet maken, en waar het krankzinnig wordt, is wanneer de overheid dat ook daadwerkelijk doet.
Stel je voor dat de overheid Apple zou proberen te dwingen om NSA-achterdeurtjes aan al hun apparaten toe te voegen door te dreigen het illegaal te maken voor iedereen die zaken doet met de overheid om Macs te gebruiken.
Stel je voor dat Apple computers of iPads aan het ministerie van Defensie verkocht en probeerde te vertellen welke missies op hun computers gepland konden worden.