Thật không thể tin được. @nsthorat là một trong những kỹ sư giỏi nhất mà tôi biết và thật tuyệt vời những gì những người tài năng có thể làm với các tác nhân làm việc thay cho họ. Chúng ta sắp có nhiều thứ thú vị hơn trong thế giới.
🏎️ gemma-webgpu: một Gemma 1B không phụ thuộc, nhanh như chớp chạy hoàn toàn trong trình duyệt của bạn. Toàn bộ vibe được lập trình từ điện thoại di động của tôi.
🔥 136.8 tok/s trên M4 Mac (nhanh hơn 3.3 lần so với transformers.js)
📱 101 tok/s trên iPhone 17 (270M), 34 tok/s (1B)
Những gì chúng tôi xây dựng từ đầu:
• 18 shader tính toán WGSL viết tay với các phép toán hợp nhất (fusedNormAdd tiết kiệm 36 lần dispatch GPU cho mỗi lần truyền)
• Giải mã Q8_0 trực tiếp trên GPU — chất lượng cao hơn q4 VÀ nhanh hơn
• Tải trọng yêu cầu theo dải streaming tải trọng theo từng lớp (~44MB mỗi khối), tải lên GPU, giải phóng bộ nhớ JS ngay lập tức. Đỉnh heap: ~50MB ngay cả với mô hình 1GB
• Mẹo streaming đó là điều khiến 1B chạy trên iPhone. nó không bao giờ giữ toàn bộ mô hình trong RAM
12KB nén gzipped. Không phụ thuộc. npm install gemma-webgpu
Đơn giản thôi: Anthropic, giống như bất kỳ công ty nào, có quyền quyết định xem nên làm gì hay không. Chính phủ cũng có quyền hợp tác với họ hoặc không. Nơi mà điều này trở nên tồi tệ là khi chính phủ đe dọa họ vì không làm một cái gì đó, và nơi mà điều này trở nên điên rồ là khi chính phủ thực hiện điều đó.
Hãy tưởng tượng nếu chính phủ cố gắng ép Apple thêm các lỗ hổng của NSA vào tất cả các thiết bị của họ bằng cách đe dọa sẽ làm cho việc kinh doanh với chính phủ trở thành bất hợp pháp nếu sử dụng máy Mac.
Hãy tưởng tượng Apple bán máy tính hoặc iPad cho Bộ Quốc phòng và cố gắng nói với Lầu Năm Góc về những nhiệm vụ nào có thể được lên kế hoạch trên máy tính của họ.