最近@supermemory LongMemEvalで99%の評価を達成しました。 問題は、メモリベンチマークが作成されたときにLLMのコンテキストウィンドウが非常に短かったことです。 例えばLongMemEval_Mは~150万トークンです。 これはほぼOpus 4.6のコンテキストウィンドウ内にあります。 私の理解では、現在のベストベンチマークは10Mコンテキストウィンドウを持つBEAMです。そこで、新しいメモリシステムのスコアを基に評価しています。 @supermemoryのスコアがどうなるのか楽しみです!きっとうまくいくはずです!