🚨 CẬP NHẬT: Một nhà nghiên cứu của Google và một người đoạt giải Turing vừa công bố một bài báo phơi bày cuộc khủng hoảng thực sự trong AI. Không phải là đào tạo. Mà là suy diễn. Và phần cứng mà chúng ta đang sử dụng chưa bao giờ được thiết kế cho điều đó. Bài báo được viết bởi Xiaoyu Ma và David Patterson. Được chấp nhận bởi IEEE Computer, 2026. Không có sự phóng đại. Không có ra mắt sản phẩm. Chỉ là một phân tích lạnh lùng về lý do tại sao việc phục vụ LLM lại bị hỏng ở cấp độ phần cứng. Lập luận chính là tàn nhẫn: → GPU FLOPS đã tăng 80 lần từ 2012 đến 2022 → Băng thông bộ nhớ chỉ tăng 17 lần trong cùng khoảng thời gian đó → Chi phí HBM mỗi GB đang TĂNG, không giảm → Giai đoạn Giải mã bị ràng buộc bởi bộ nhớ, không phải bởi tính toán → Chúng ta đang xây dựng suy diễn trên các chip được thiết kế cho đào tạo Đây là phần điên rồ nhất: OpenAI đã mất khoảng 5 tỷ USD trên doanh thu 3,7 tỷ USD. Điểm nghẽn không phải là chất lượng mô hình. Mà là chi phí phục vụ từng token cho từng người dùng. Suy diễn đang làm cho các công ty này kiệt quệ. Và năm xu hướng đang làm cho tình hình tồi tệ hơn đồng thời: → Các mô hình MoE như DeepSeek-V3 với 256 chuyên gia làm bùng nổ bộ nhớ → Các mô hình lý luận tạo ra chuỗi suy nghĩ khổng lồ trước khi trả lời → Đầu vào đa phương tiện (hình ảnh, âm thanh, video) vượt trội hơn văn bản → Cửa sổ ngữ cảnh dài làm căng thẳng bộ nhớ KV → Các pipeline RAG tiêm thêm ngữ cảnh cho mỗi yêu cầu Bốn sự thay đổi phần cứng mà họ đề xuất: → Flash Băng thông Cao: 512GB ngăn xếp với băng thông cấp HBM, 10 lần nhiều bộ nhớ hơn mỗi nút → Xử lý Gần Bộ nhớ: các mạch logic được đặt cạnh bộ nhớ, không trên cùng một chip → Xếp chồng Bộ nhớ-Logic 3D: các kết nối dọc cung cấp công suất thấp hơn 2-3 lần so với HBM...