Nylig oppnådde @supermemory 99 % på LongMemEval. Problemet er at minnebenchmarks ble laget da LLM-er hadde et veldig lite kontekstvindu. For eksempel er LongMemEval_M ~1,5 millioner tokens. Som nesten er innenfor Opus 4.6-kontekstvinduet. Så vidt jeg forstår, er dagens beste benchmark BEAM med 10 millioner kontekstvindu. Så jeg evaluerer alle nye minnesystemer basert på poengsummen der. Gleder meg til å se hvordan @supermemory vil score! Jeg er sikker på at det kommer til å gå bra!