RAG đã bị hỏng và không ai nói về điều đó 🤯 Stanford vừa công bố một tài liệu về "Sụp đổ ngữ nghĩa," chứng minh rằng khi cơ sở tri thức của bạn đạt khoảng ~10.000 tài liệu, tìm kiếm ngữ nghĩa trở thành một trò chơi đồng xu thực sự. Đây là lý do tại sao RAG của bạn đang thất bại: Sau 10.000 tài liệu, tìm kiếm AI tinh vi của bạn về cơ bản trở thành một trò chơi đồng xu. Mỗi tài liệu bạn thêm vào sẽ được chuyển thành một nhúng không gian cao chiều. Ở quy mô nhỏ, các tài liệu tương tự tập hợp lại với nhau một cách hoàn hảo. Nhưng khi thêm đủ dữ liệu, không gian sẽ đầy lên. Khoảng cách bị nén lại. Mọi thứ trông có vẻ "liên quan." Đó là lời nguyền của chiều không gian. Trong không gian 1000D, 99,9% dữ liệu của bạn sống trên lớp vỏ ngoài, gần như cách đều từ bất kỳ truy vấn nào. Stanford phát hiện ra rằng độ chính xác giảm 87% ở 50k tài liệu. Thêm nhiều ngữ cảnh thực sự làm cho ảo giác tồi tệ hơn, không tốt hơn. Chúng tôi đã nghĩ rằng RAG đã giải quyết được ảo giác… nó chỉ che giấu chúng bằng toán học. Cách khắc phục không phải là xếp hạng lại hay chia nhỏ tốt hơn. Đó là truy xuất theo cấp bậc và cơ sở dữ liệu đồ thị.