🚨 CẬP NHẬT: Stanford vừa công bố một bài báo khó chịu nhất về lý luận của LLM. Nó cho thấy một sự phân tích hệ thống về lý do tại sao LLM liên tục thất bại, ngay cả khi bảng xếp hạng nói rằng chúng hoàn hảo. Họ chia lý luận thành hai nhóm: không thân thể (toán học, logic, kiến thức thông thường) và thân thể (thế giới vật lý).. và những thất bại giống hệt nhau xuất hiện ở khắp mọi nơi. Một trong những phát hiện đáng lo ngại nhất là tần suất mà các mô hình sản xuất lý luận không trung thực.. các mô hình sẽ cho bạn câu trả lời cuối cùng đúng, nhưng lời giải thích của chúng hoàn toàn là giả mạo hoặc sai logic. Nó thực sự huấn luyện chúng ta tin tưởng vào một quy trình quyết định giả. Họ cũng gặp phải những thất bại kiến trúc cơ bản (sụp đổ dưới logic nhẹ) và những thất bại về độ bền (thay đổi một từ trong yêu cầu của bạn làm đảo lộn toàn bộ câu trả lời). Và lý luận thân thể? Còn tệ hơn. LLM hoàn toàn không có cơ sở vật lý, vì vậy chúng thất bại trong các dự đoán vật lý cơ bản một cách dễ đoán. Điểm rút ra: LLM lý luận đủ để nghe có vẻ thuyết phục, nhưng không đủ để đáng tin cậy. Chúng ta đang triển khai các hệ thống vượt qua các tiêu chuẩn nhưng thất bại một cách âm thầm trong sản xuất.