Baru-baru ini @supermemory mencapai 99% di LongMemEval. Masalahnya adalah bahwa tolok ukur memori dibuat ketika LLM memiliki jendela konteks yang sangat kecil. Misalnya, LongMemEval_M adalah ~1,5 juta token. Yang hampir berada di dalam jendela konteks Opus 4.6. Dari apa yang saya pahami, tolok ukur terbaik saat ini adalah BEAM dengan jendela konteks 10M. Jadi saya mengevaluasi semua sistem memori baru berdasarkan skor mereka di sana. Bersemangat untuk melihat bagaimana @supermemory akan mencetak gol! Saya yakin itu akan berjalan dengan baik!