C'est incroyable. @nsthorat est l'un des meilleurs ingénieurs que je connaisse et c'est incroyable ce que des personnes talentueuses peuvent faire avec des agents travaillant en leur nom. Nous allons avoir tellement plus de choses cool dans le monde.
🏎️ gemma-webgpu : un Gemma 1B sans dépendances, ultra rapide, fonctionnant entièrement dans votre navigateur. Ambiance complète codée depuis mon téléphone portable.
🔥 136,8 tok/s sur M4 Mac (3,3x plus rapide que transformers.js)
📱 101 tok/s sur iPhone 17 (270M), 34 tok/s (1B)
Ce que nous avons construit de zéro :
• 18 shaders de calcul WGSL écrits à la main avec des opérations fusionnées (fusedNormAdd économise 36 dispatches GPU par passage avant)
• Déquantification Q8_0 directement sur GPU — qualité supérieure à q4 ET plus rapide
• Chargements de poids par requête de plage en streaming couche par couche (~44 Mo par morceaux), téléversements vers le GPU, libère immédiatement la mémoire JS. Pile maximale : ~50 Mo même pour le modèle de 1 Go
• Ce truc de streaming est ce qui permet à 1B de fonctionner sur iPhone. il ne garde jamais le modèle complet en RAM
12 Ko gzippé. Aucune dépendance. npm install gemma-webgpu
C'est simple : Anthropic, comme toute entreprise, a le droit de décider ce qu'elle veut produire ou non. Le gouvernement a également tout à fait le droit de travailler avec eux ou non. Là où cela devient mauvais, c'est lorsque le gouvernement les menace de ne pas produire quelque chose, et là où cela devient fou, c'est lorsque le gouvernement passe à l'acte.
Imagine si le gouvernement essayait de forcer Apple à ajouter des portes dérobées de la NSA à tous ses appareils en menaçant de rendre illégal pour quiconque faisant des affaires avec le gouvernement d'utiliser des Macs.
Imagine qu'Apple vende des ordinateurs ou des iPads au DOD et essaie de dire au Pentagone quelles missions pourraient être planifiées sur leurs ordinateurs.