interessante. Se não me engano, excluir o KV do token atual usando máscara de atenção (ou seja, remover a diagonal) não funciona! Hipótese: isso efetivamente faz com que o token atual seja um sumidouro de atenção.