🔥 Chính xác. Templar đã thay đổi cách tôi nghĩ về hạ tầng AI. Tôi không mong đợi nhiều từ AI phi tập trung, nhưng khi thấy @tplr_ai huấn luyện một mô hình 72B trên 1.1T token qua ~70 nút không cần phép trên Bittensor ( $TAO). Chỉ riêng điều đó đã là điều bất thường, nhưng điều thực sự thay đổi suy nghĩ của tôi là cách họ làm cho nó hoạt động. - Ở quy mô này, việc huấn luyện bị giới hạn bởi sự phối hợp. Thông thường, bạn đang đẩy ~280GB dữ liệu mỗi bước đồng bộ giữa các nút, điều này khiến việc huấn luyện phi tập trung gần như không thể thực hiện được. - @tplr_ai đã nén điều đó xuống còn ~2.2GB và giảm tần suất đồng bộ một cách đáng kể bằng cách sử dụng SparseLoCo. Khi tôi nhìn vào điều đó, tôi thấy họ đang loại bỏ nút thắt cốt lõi đã giết chết mọi nỗ lực trước đây 🤯. Đó là lý do tại sao tôi nghĩ việc gọi đây là một khoảnh khắc DeepSeek thực sự không phải là phóng đại. DeepSeek đã cho thấy các mô hình có thể được huấn luyện với chi phí rẻ hơn. Templar cho thấy chúng có thể được huấn luyện mà không cần phối hợp trung tâm chút nào. -> Đó là hai hướng rất khác nhau, và hướng này cảm thấy khó cạnh tranh hơn về cấu trúc. Một tín hiệu khác mà tôi không bỏ qua: khi những người như Jack Clark của Anthropic công khai định hình nó như một hạ tầng thực sự: - Theo kinh nghiệm của tôi, loại xác thực đó thường đến sau khi một cái gì đó đã hoạt động, chứ không phải trước. - Đây vẫn là giai đoạn tiền huấn luyện. Lợi thế thực sự trong AI đến từ giai đoạn hậu huấn luyện, RLHF, vòng lặp căn chỉnh, về cơ bản là nơi các mô hình trở nên thực sự hữu ích. Templar đang tiến tới đó tiếp theo với Grail, và đối với tôi, đó là bài kiểm tra thực sự. Nếu họ có thể phi tập trung hóa lớp đó nữa, thì chúng ta không còn nói về tính toán phi tập trung, họ đang nói về một quy trình sản xuất AI hoàn toàn không cần phép. Điều làm Templar nổi bật với tôi là thời điểm và hướng đi mà họ đã chọn. 1/ Họ đã nhắm đến sự phối hợp khi toàn bộ ngành AI đang âm thầm gặp phải giới hạn mở rộng. - Đó là một cược rất khác, và thường thì những người tấn công các rào cản, không phải xu hướng, mới là những người quan trọng sau này. 2/ Một chất xúc tác khác mà tôi thấy là thiết kế không cần phép. - Hầu hết các hệ thống AI phi tập trung vẫn hạn chế sự tham gia theo một cách nào đó, điều này giết chết hiệu ứng mạng sớm. - Templar đã hoàn toàn mở từ đầu, có nghĩa là nếu mô hình này hoạt động, nó không chỉ mở rộng theo cách tuyến tính, mà còn tích lũy với nhiều người đóng góp hơn, nhiều thử nghiệm hơn, nhiều trường hợp biên được giải quyết song song hơn. Ngoài ra, thực tế là họ đang xây dựng hướng tới hậu huấn luyện (lớp RL) cho tôi thấy họ hiểu giá trị thực sự nằm ở đâu. Tiền huấn luyện thu hút sự chú ý, nhưng hậu huấn luyện là nơi các mô hình trở nên có thể sử dụng, bám dính và có thể kiếm tiền. Nếu họ thực hiện ở đây, họ bắt đầu sở hữu một phần của lớp trí tuệ. 3/ Dự đoán của tôi dựa trên điều này: Trong ngắn hạn, hầu hết mọi người vẫn sẽ đánh giá thấp nó vì khoảng cách chất lượng mô hình so với các phòng thí nghiệm tập trung sẽ là lập luận dễ dàng. Nhưng theo thời gian, tôi nghĩ Templar sẽ trở thành: - một lớp backend cho phát triển AI mở. - một mạng lưới phối hợp cho tính toán phân tán. - và cuối cùng là một thị trường cho việc tinh chỉnh trí tuệ. Không thống trị ngay lập tức, nhưng âm thầm hiện diện ở khắp mọi nơi. Và nếu điều đó xảy ra, lợi ích đến từ việc trở thành hệ thống mà bất kỳ ai cũng có thể xây dựng khi họ không muốn phụ thuộc vào @OpenAI chút nào.
templar
templar22 giờ trước
Trong tập @theallinpod tuần này, @chamath đã hỏi CEO @nvidia Jensen Huang về việc đào tạo AI phi tập trung, gọi việc chạy Covenant-72B của chúng tôi là "một thành tựu kỹ thuật khá điên rồ." Một sự chỉnh sửa: đó là 72 tỷ tham số, không phải bốn. Được đào tạo không cần phép trên hơn 70 người đóng góp qua internet thông thường. Mô hình lớn nhất từng được tiền đào tạo trên cơ sở hạ tầng hoàn toàn phi tập trung. Câu trả lời của Jensen cũng rất đáng nghe.
@tplr_ai Chads cung cấp nhiều thông tin quý giá về hệ sinh thái Bittensor: @AlgodTrading @CryptoWizardd @CryptoGodJohn @QuintenFrancois @Tanaka_L2 @Eli5defi @andyyy @MilkRoad @andyyy @eliz883
Karamata_ 💎
Karamata_ 💎15 giờ trước
🔥 Chính xác. Templar đã thay đổi cách tôi nghĩ về hạ tầng AI. Tôi không mong đợi nhiều từ AI phi tập trung, nhưng khi thấy @tplr_ai huấn luyện một mô hình 72B trên 1.1T token qua ~70 nút không cần phép trên Bittensor ( $TAO). Chỉ riêng điều đó đã là điều bất thường, nhưng điều thực sự thay đổi suy nghĩ của tôi là cách họ làm cho nó hoạt động. - Ở quy mô này, việc huấn luyện bị giới hạn bởi sự phối hợp. Thông thường, bạn đang đẩy ~280GB dữ liệu mỗi bước đồng bộ giữa các nút, điều này khiến việc huấn luyện phi tập trung gần như không thể thực hiện được. - @tplr_ai đã nén điều đó xuống còn ~2.2GB và giảm tần suất đồng bộ một cách đáng kể bằng cách sử dụng SparseLoCo. Khi tôi nhìn vào điều đó, tôi thấy họ đang loại bỏ nút thắt cốt lõi đã giết chết mọi nỗ lực trước đây 🤯. Đó là lý do tại sao tôi nghĩ việc gọi đây là một khoảnh khắc DeepSeek thực sự không phải là phóng đại. DeepSeek đã cho thấy các mô hình có thể được huấn luyện với chi phí rẻ hơn. Templar cho thấy chúng có thể được huấn luyện mà không cần phối hợp trung tâm chút nào. -> Đó là hai hướng rất khác nhau, và hướng này cảm thấy khó cạnh tranh hơn về cấu trúc. Một tín hiệu khác mà tôi không bỏ qua: khi những người như Jack Clark của Anthropic công khai định hình nó như một hạ tầng thực sự: - Theo kinh nghiệm của tôi, loại xác thực đó thường đến sau khi một cái gì đó đã hoạt động, chứ không phải trước. - Đây vẫn là giai đoạn tiền huấn luyện. Lợi thế thực sự trong AI đến từ giai đoạn hậu huấn luyện, RLHF, vòng lặp căn chỉnh, về cơ bản là nơi các mô hình trở nên thực sự hữu ích. Templar đang tiến tới đó tiếp theo với Grail, và đối với tôi, đó là bài kiểm tra thực sự. Nếu họ có thể phi tập trung hóa lớp đó nữa, thì chúng ta không còn nói về tính toán phi tập trung, họ đang nói về một quy trình sản xuất AI hoàn toàn không cần phép. Điều làm Templar nổi bật với tôi là thời điểm và hướng đi mà họ đã chọn. 1/ Họ đã nhắm đến sự phối hợp khi toàn bộ ngành AI đang âm thầm gặp phải giới hạn mở rộng. - Đó là một cược rất khác, và thường thì những người tấn công các rào cản, không phải xu hướng, mới là những người quan trọng sau này. 2/ Một chất xúc tác khác mà tôi thấy là thiết kế không cần phép. - Hầu hết các hệ thống AI phi tập trung vẫn hạn chế sự tham gia theo một cách nào đó, điều này giết chết hiệu ứng mạng sớm. - Templar đã hoàn toàn mở từ đầu, có nghĩa là nếu mô hình này hoạt động, nó không chỉ mở rộng theo cách tuyến tính, mà còn tích lũy với nhiều người đóng góp hơn, nhiều thử nghiệm hơn, nhiều trường hợp biên được giải quyết song song hơn. Ngoài ra, thực tế là họ đang xây dựng hướng tới hậu huấn luyện (lớp RL) cho tôi thấy họ hiểu giá trị thực sự nằm ở đâu. Tiền huấn luyện thu hút sự chú ý, nhưng hậu huấn luyện là nơi các mô hình trở nên có thể sử dụng, bám dính và có thể kiếm tiền. Nếu họ thực hiện ở đây, họ bắt đầu sở hữu một phần của lớp trí tuệ. 3/ Dự đoán của tôi dựa trên điều này: Trong ngắn hạn, hầu hết mọi người vẫn sẽ đánh giá thấp nó vì khoảng cách chất lượng mô hình so với các phòng thí nghiệm tập trung sẽ là lập luận dễ dàng. Nhưng theo thời gian, tôi nghĩ Templar sẽ trở thành: - một lớp backend cho phát triển AI mở. - một mạng lưới phối hợp cho tính toán phân tán. - và cuối cùng là một thị trường cho việc tinh chỉnh trí tuệ. Không thống trị ngay lập tức, nhưng âm thầm hiện diện ở khắp mọi nơi. Và nếu điều đó xảy ra, lợi ích đến từ việc trở thành hệ thống mà bất kỳ ai cũng có thể xây dựng khi họ không muốn phụ thuộc vào @OpenAI chút nào.
@tplr_ai @AlgodTrading @CryptoWizardd @CryptoGodJohn @QuintenFrancois @Tanaka_L2 @Eli5defi @andyyy @MilkRoad @eliz883 👍
3,33K