Nyligen uppnådde @supermemory 99 % på LongMemEval. Problemet är att minnesbenchmarks skapades när LLM:er hade ett mycket litet kontextfönster. Till exempel är LongMemEval_M ~1,5 miljoner tokens. Vilket nästan är inom Opus 4.6:s kontextfönster. Såvitt jag förstår är nuvarande bästa benchmark BEAM med 10 miljoner kontextfönster. Så jag utvärderar alla nya minnessystem baserat på deras poäng där. Ser fram emot att se hur @supermemory kommer att få poäng! Jag är säker på att det kommer att gå bra!