RAGは壊れていて、誰もそれについて🤯話さない スタンフォード大学は「セマンティック・コラプス」に関する論文を発表し、知識ベースが1万件以上に達すると、セマンティックサーチは文字通りコイントスのようになることを証明しました。 RAGが失敗している理由は以下の通りです: 1万件を超えると、あなたの高度なAI検索は基本的にコイントスのようなものになります。 追加するすべての文書は高次元の埋め込みに変換されます。小規模であれば、似たようなドキュメントが完璧に集まっています。しかし十分なデータを加えると、その空間は埋まっていきます。距離は圧縮されます。すべてが「関連性」に見える。 それは次元の呪いです。1000D空間では、データの99.9%が外側の殻に存在し、クエリからほぼ等距離にあります。 スタンフォードでは5万件のドキュメントで87%の精度低下が見られました。文脈を増やすほど、幻覚は悪化し、むしろ悪化します。RAGが幻覚を解決すると思っていたのに...数学の後ろに隠していただけだ。 解決策はランク付けの再昇格やチャンク化の改善ではありません。それは階層的な検索とグラフデータベースです。