Cửa hàng DApp | Trung tâm Web3 với các sự kiện và trò chơi

Chủ đề thịnh hành

Robert Youssef

AI của bạn đã âm thầm quên mọi thứ bạn đã nói với nó. Không phải ngẫu nhiên. Không phải ồn ào. Mà là có hệ thống. Bắt đầu từ những quyết định quan trọng nhất. > Ràng buộc bạn đã đặt ra ba tháng trước "không bao giờ sử dụng Redis, khách hàng đã phủ quyết điều đó sau một sự cố sản xuất." Đã biến mất. Ràng buộc khu vực triển khai GDPR. Đã biến mất. Giới hạn thử nghiệm mà bạn đã kiểm tra thực nghiệm sau sự cố chuỗi. Đã biến mất. > Mô hình chưa bao giờ nói với bạn. Nó chỉ bắt đầu sử dụng các mặc định. > Điều này được gọi là sự suy giảm ngữ cảnh. Và các nhà nghiên cứu từ Cambridge và Independent vừa định lượng chính xác mức độ nghiêm trọng của nó. > Mỗi hệ thống AI sản xuất chạy đủ lâu cuối cùng sẽ nén ngữ cảnh của nó để tạo chỗ cho thông tin mới. Việc nén này là cực kỳ mất mát. Họ đã thử nghiệm trực tiếp: 2.000 sự thật được nén ở tỷ lệ 36,7× đã để lại 60% cơ sở tri thức không thể phục hồi vĩnh viễn. Không phải ảo tưởng. Không sai. Chỉ đơn giản là biến mất. Mô hình đã báo cáo một cách trung thực rằng nó không còn thông tin nữa. > Sau đó, họ đã thử nghiệm một điều tồi tệ hơn. Họ đã nhúng 20 ràng buộc dự án thực vào một cuộc trò chuyện 88 lượt, những loại ràng buộc xuất hiện tự nhiên trong bất kỳ dự án dài hạn nào, sau đó áp dụng nén chuỗi giống như các hệ thống sản xuất làm. Sau một vòng: 91% được bảo tồn. Sau hai vòng: 62%. Sau ba vòng: 46%. > Mô hình vẫn làm việc với sự tự tin đầy đủ trong suốt thời gian đó. Tạo ra các đầu ra vi phạm các ràng buộc đã quên. Không có tín hiệu lỗi. Không có cảnh báo. Chỉ là sự trở lại im lặng về các mặc định hợp lý mà lại sai cho tình huống cụ thể của bạn. > Họ đã thử nghiệm điều này trên bốn mô hình tiên tiến. Claude Sonnet 4.5, Claude Sonnet 4.6, Opus, GPT-5.4. Mỗi một trong số đó đều sụp đổ dưới áp lực nén. Đây không phải là vấn đề của mô hình. Đây là vấn đề kiến trúc. → 60% sự thật bị mất vĩnh viễn sau một lần nén → 54% ràng buộc dự án biến mất sau ba vòng nén chuỗi → GPT-5.4 giảm xuống 0% độ chính xác chỉ với 2× nén → Ngay cả Opus cũng chỉ giữ lại 5% sự thật ở 20× nén → Chi phí bộ nhớ trong ngữ cảnh là 14.201 đô la/năm cho 7.000 sự thật so với 56 đô la/năm cho phương án thay thế Các phòng thí nghiệm AI biết điều này. Giải pháp của họ là cửa sổ ngữ cảnh lớn hơn. Một cửa sổ 10 triệu token là một cái thùng lớn hơn. Nó vẫn chỉ là một cái thùng. Việc nén là không thể tránh khỏi đối với bất kỳ hệ thống dài hạn nào. Kích thước cửa sổ chỉ xác định khi nào việc quên bắt đầu chứ không phải liệu nó có xảy ra hay không.

🚨 CẬP NHẬT: các nhà nghiên cứu đã cài một tác nhân xấu vào trong một nhóm các tác nhân LLM. toàn bộ mạng lưới đã không thể đạt được sự đồng thuận. đây là Vấn Đề Tướng Byzantine. một cơn ác mộng của hệ thống phân tán đã tồn tại 40 năm. và bây giờ, đó cũng là vấn đề của đường ống tác nhân của bạn. trong các thiết lập hoàn toàn vô hại, với không có tác nhân xấu nào, các tác nhân LLM vẫn không thể hội tụ vào các giá trị chung. và điều này trở nên tồi tệ hơn khi bạn thêm nhiều tác nhân vào nhóm. chế độ thất bại đang tiết lộ. không phải là sự tham nhũng giá trị tinh vi. không phải là một tác nhân lén lút đưa ra một câu trả lời sai. các mô hình chỉ... dừng lại. chúng hết thời gian. chúng đi vòng vòng. cuộc trò chuyện không bao giờ đạt được sự đồng thuận. điều này quan trọng vì toàn bộ sự phấn khích về AI đa tác nhân giả định rằng sự phối hợp hoạt động. bầy đàn tác nhân tự động, giải quyết vấn đề hợp tác, hệ thống AI phi tập trung. tất cả đều giả định rằng nếu bạn đặt nhiều LLM vào một phòng và cho chúng một giao thức, chúng sẽ hội tụ vào một quyết định chung. đồng thuận Byzantine là một trong những vấn đề lâu đời nhất, được nghiên cứu nhiều nhất trong các hệ thống phân tán. các thuật toán cổ điển đã giải quyết nó từ nhiều thập kỷ trước với các đảm bảo toán học nghiêm ngặt. câu hỏi là liệu các tác nhân LLM có thể đạt được điều tương tự thông qua giao tiếp ngôn ngữ tự nhiên thay vì các giao thức chính thức hay không. câu trả lời, ít nhất là bây giờ, là không. và lý do thì đáng để suy ngẫm. các thuật toán đồng thuận truyền thống hoạt động vì mỗi nút tuân theo một giao thức xác định giống hệt nhau. các LLM là ngẫu nhiên. cùng một lời nhắc tạo ra các đầu ra khác nhau qua các lần chạy. một sự đồng thuận giữ vững ở vòng 3 có thể tan rã ở vòng 4 khi các tác nhân điều chỉnh lý luận của họ sau khi thấy phản hồi từ đồng nghiệp. đây là sự không khớp cơ bản: các giao thức đồng thuận giả định các máy trạng thái xác định. các LLM thì ngược lại. điều này cũng có nghĩa là "nhiều tác nhân = câu trả lời tốt hơn" có một giới hạn mà không ai đang đo lường. ở một kích thước nhóm nào đó, chi phí phối hợp và thất bại trong hội tụ vượt quá bất kỳ lợi ích nào từ các quan điểm đa dạng. hệ quả thực tiễn là không thoải mái cho bất kỳ ai xây dựng các hệ thống đa tác nhân cho các nhiệm vụ có tính rủi ro cao. sự đồng thuận đáng tin cậy không phải là một thuộc tính phát sinh từ việc đặt các tác nhân thông minh vào cuộc trò chuyện. nó phải được thiết kế một cách rõ ràng, với các đảm bảo chính thức, không phải hy vọng vào sự tồn tại. chúng tôi đang triển khai các hệ thống đa tác nhân vào tài chính, chăm sóc sức khỏe, cơ sở hạ tầng tự động. và vấn đề đồng thuận, nguyên tắc phối hợp cơ bản nhất, vẫn chưa được giải quyết.

Hàng đầu

Thứ hạng

Yêu thích