interessante. Se não me engano, excluir o KV do token atual pela máscara de atenção (ou seja, remover a diagonal) não funciona! Hipótese: isso efetivamente faz com que o token atual se torne um poço de atenção.