Onlangs heeft @supermemory 99% behaald op LongMemEval. Het probleem is dat geheugentests zijn gemaakt toen LLM's een zeer kleine contextvenster hadden. Bijvoorbeeld, LongMemEval_M is ~1,5M tokens. Wat bijna binnen het Opus 4.6 contextvenster valt. Voor zover ik begrijp, is de huidige beste benchmark BEAM met een contextvenster van 10M. Dus ik evalueer alle nieuwe geheugensystemen op basis van hun score daar. Ik ben benieuwd hoe @supermemory zal scoren! Ik weet zeker dat het goed zal doen!