Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Khoảnh Khắc Trí Tuệ Được Khắc Vào Đá
Nhân loại đang làm điều điên rồ ngay bây giờ. Xây dựng các trung tâm dữ liệu có kích thước như các thành phố, dựng các nhà máy điện bên cạnh chúng, phóng các mạng vệ tinh, và làm mát các phòng đầy siêu máy tính tiêu thụ hàng trăm kilowatt với các hệ thống làm mát bằng chất lỏng. Tất cả để vận hành AI. Tin rằng đây là tương lai.
Nhưng lịch sử kể một câu chuyện khác. Mỗi cuộc cách mạng công nghệ đều bắt đầu với những nguyên mẫu khổng lồ, và những con quái vật đó biến mất ngay khi một bước đột phá thực tiễn xuất hiện. Bạn có nhớ ENIAC không? Một con quái vật ống chân không chiếm trọn một căn phòng. Nó đã cho nhân loại thấy phép màu của tính toán, nhưng nó chậm, đắt đỏ, và không bao giờ có thể mở rộng. Rồi transistor xuất hiện, và mọi thứ đã thay đổi. Các trạm làm việc, PC, smartphone theo sau. Thế giới đã chọn vượt qua ENIAC thay vì xây dựng thêm chúng. Các trung tâm dữ liệu GPU mà chúng ta đang xây dựng hôm nay chính là ENIAC của AI. Chúng hoạt động. Chúng lấp lánh. Nhưng đây không phải là kết thúc.
Trước khi bạn tiếp tục đọc, hãy truy cập vào trang web bên dưới và hỏi nó bất cứ điều gì. Ba mươi giây là tất cả những gì cần thiết. Bạn cần cảm nhận điều này trong cơ thể của mình.
Một LLM đã xuất hiện nơi câu trả lời đã có ngay khi bạn nhấn enter. Chúng ta đã sống như thể độ trễ trong phản hồi của AI chỉ đơn giản là cách mọi thứ diễn ra. Đó là lý do tại sao đây là một cú sốc mà không có tiêu chuẩn nào có thể truyền đạt.
Tính toán đa mục đích đã thay đổi thế giới vì nó trở nên nhanh chóng, rẻ và dễ xây dựng. AI sẽ đi theo con đường tương tự. Vấn đề là AI ngày nay không hề gần gũi với con đường đó. Khi bạn hỏi AI một câu hỏi, nó chống cằm lên tay và suy nghĩ một lúc. Các trợ lý lập trình nhìn chằm chằm trong vài phút trước khi đưa ra câu trả lời, phá vỡ dòng chảy của bạn. Ngay cả khi cần phản hồi trong tích tắc, tất cả những gì bạn nhận được chỉ là một câu trả lời chậm rãi. Nói chuyện với AI vẫn giống như thực hiện một cuộc gọi quốc tế. Nói, chờ, chờ thêm một chút. Độ trễ này là bức tường giữa con người và AI.
Vấn đề chi phí còn tồi tệ hơn. Việc vận hành AI ngày nay đòi hỏi thiết bị và vốn khổng lồ. Các ngăn xếp HBM, I/O phức tạp, cáp, làm mát bằng chất lỏng, đóng gói tiên tiến, xếp chồng 3D. Tại sao tất cả những điều này lại cần thiết? Bởi vì nơi ghi nhớ và nơi suy nghĩ bị tách biệt.
Hãy nghĩ theo cách này. Não của bạn ở Seoul, nhưng tất cả những kỷ niệm của bạn được lưu trữ trong một kho hàng ở Busan. Mỗi khi bạn cần nhớ điều gì đó, bạn phải đi tàu KTX đến Busan để lấy nó. Phần cứng AI hiện đại có cấu trúc chính xác như vậy. Bộ nhớ (DRAM) lớn và rẻ nhưng nằm ngoài chip, khiến việc truy cập chậm hơn hàng nghìn lần so với bộ nhớ trên chip. Và bạn cũng không thể đặt DRAM bên trong chip tính toán — các quy trình chế tạo là hoàn toàn khác nhau. Sự mâu thuẫn này tạo ra tất cả sự phức tạp trong phần cứng AI. Để giảm thiểu chuyến đi vòng quanh Seoul-Busan, chúng tôi đặt HBM như một đường sắt cao tốc, xây dựng xếp chồng 3D như các tòa nhà cao tầng, và vận hành làm mát bằng chất lỏng như điều hòa không khí khổng lồ. Tự nhiên, mức tiêu thụ điện tăng vọt và chi phí tăng cao.
Taalas đã lật ngược điều này từ gốc lên. Thay vì lấy kỷ niệm từ Busan, họ đã trồng chúng trực tiếp bên trong não. Họ đã thống nhất bộ nhớ và tính toán trên một chip duy nhất với mật độ ở cấp độ DRAM. Sau đó, họ đã đi một bước xa hơn: xây dựng silicon chuyên dụng cho mỗi mô hình. Không phải hàng hóa sẵn có — mà là may đo riêng. Trong suốt lịch sử tính toán, sự chuyên môn sâu luôn là con đường chắc chắn nhất dẫn đến hiệu quả cực cao. Taalas đã đẩy nguyên tắc đó đến giới hạn tuyệt đối.
Điều này có thể xảy ra như thế nào? Họ khắc kiến thức đã học của mô hình — trọng số của nó — trực tiếp vào các lớp kim loại của silicon. Trí tuệ, thực sự được khắc vào đá. Một transistor giữ một trọng số trong khi đồng thời thực hiện phép nhân. Nó nhớ và suy nghĩ cùng một lúc. Theo lời của người sáng lập Ljubisa Bajic, đây "không phải là vật lý hạt nhân — mà là một mẹo thông minh mà không ai thấy vì không ai đi theo con đường này." Họ giữ nguyên bộ khung của chip và chỉ thay đổi hai lớp kim loại để tùy chỉnh cho một mô hình cụ thể. Những hình xăm khác nhau trên cùng một cơ thể. Trên quy trình 6nm của TSMC, mất hai tháng từ trọng số mô hình đến một thẻ hoạt động.
Chip HC1, với Llama 3.1 8B được khắc vào silicon của nó, xử lý khoảng 17,000 token mỗi giây cho mỗi người dùng. H200 của Nvidia làm được 230, B200 làm được 353, Groq 594, SambaNova 932, Cerebras 1,981. Tất cả những người khác đang đi xe đạp. Taalas đã đi máy bay phản lực. Một thẻ tiêu thụ 200 watt. Mười thẻ trong một máy chủ, 2,500 watt. Một quạt là đủ. Nó cắm ngay vào bất kỳ trung tâm dữ liệu nào được xây dựng trong 30 năm qua. Chi phí sản xuất: một phần hai mươi. Điện: một phần mười. Không có HBM, không có đóng gói tiên tiến, không có xếp chồng 3D, không có làm mát bằng chất lỏng.
Tất nhiên, không có gì là miễn phí. Nếu một GPU đa mục đích là một loa có thể phát bất kỳ bài hát nào, thì chip Taalas là một hộp nhạc chỉ phát một giai điệu hoàn hảo. Nó không thông minh, và khi mô hình thay đổi, bạn cần một chip mới. Nhưng kích thước ngữ cảnh có thể điều chỉnh, và việc tinh chỉnh LoRA hoạt động.
Và quan trọng, ngưỡng mà tại đó các mô hình trở nên đủ cho các nhiệm vụ hàng ngày đang đến gần. Nếu các mô hình tiên phong tiến bộ thêm một chút nữa, chúng ta sẽ bước vào một giai đoạn mà một mô hình duy nhất phục vụ công việc thường xuyên trong một thời gian dài. Đó là khi kinh tế của một hộp nhạc chuyên dụng trở nên hợp lý.
Nvidia đã mua Groq với giá 20 tỷ đô la, SoftBank đã nuốt Graphcore, Intel đã với tới SambaNova. Một làn sóng khổng lồ hướng tới silicon chuyên dụng cho suy diễn đang hình thành ngay bây giờ. Taalas đứng ở rìa cực kỳ cấp tiến của nó. Sản phẩm đầu tiên bắt đầu với Llama được khắc trong silicon, tiếp theo là một mô hình lý luận cỡ trung vào mùa xuân và một mô hình tiên phong vào mùa đông.
Một AI rất nhanh là một AI hoàn toàn khác. Khi độ trễ dưới một mili giây trở nên khả thi, những kịch bản mà chúng ta chỉ có thể tưởng tượng trở thành hiện thực. Không phải một cuộc gọi quốc tế — cảm giác chạy bên cạnh ai đó và nói chuyện với tốc độ tối đa. Taalas đã mở cửa như một phiên bản beta mặc dù mô hình đầu tiên của nó chưa phải là tiên phong. Phía sau điều đó là một sự tự tin: hãy cảm nhận điều gì trở nên khả thi ở tốc độ này.
...

Hàng đầu
Thứ hạng
Yêu thích
