Nedávno @supermemory dosáhl 99 % na LongMemEval. Problém je, že paměťové benchmarky byly vytvářeny, když LLM měly velmi malé kontextové okno. Například LongMemEval_M je ~1,5 milionu tokenů. Což je téměř uvnitř kontextového okna Opus 4.6. Podle toho, co chápu, je aktuálně nejlepší benchmark BEAM s kontextovým oknem 10M. Takže hodnotím všechny nové paměťové systémy podle jejich skóre v nich. Těším se, jak @supermemory zvládnou! Jsem si jistý, že se mu bude dařit!