DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Hoje li um artigo de 2025 chamado "Prevendo Tendências de Preço de Criptomoedas de Curto Prazo com Dados do Livro de Ordens", e o autor também tem uma conta X @Kev, então você pode assistir e assistir. A descoberta central deste artigo é que o pré-processamento de dados de alta frequência tem precedência sobre a complexidade do modelo, ou seja, após a limpeza dos dados, projetar manualmente características + modelos simples é comparável ou até melhor do que modelos profundos totalmente automáticos (recursos de aprendizado automático de redes neurais). Essa descoberta é o consenso dominante no campo financeiro tradicional, mas é raro fazer pesquisas sobre o mercado cripto. Os dados de pesquisa do autor são os dados originais do livro de ordens L2 da interface pública da Bybit em 30 de janeiro de 2025. Um snapshot a cada 100ms, com um máximo de 200 camadas de ordens por snapshot. O experimento principal levou 100.000 peças (cerca de 166 minutos), e o experimento de sequência foi expandido para 1 milhão de peças (cerca de 28 horas). Os dados estão livremente disponíveis, então a reprodutibilidade do artigo é boa. O método de pesquisa consiste em dividir os dados em três grupos: não filtrados, filtrados por SG e filtrados por Kalman, e então inserir 6 modelos separadamente, prevendo a direção do preço após 100ms / 500ms / 1s sob os rótulos de classificação binária (subida/descida) e três classificações (subida/plana/queda), respectivamente. No total, 3 (pré-processamento de dados), × 6 (6 conjuntos de modelos), ×2 (previsão de resultados binários ou triplos de classificação), × 3 (três janelas de tempo de previsão) = 108 conjuntos de experimentos. Os modelos são agrupados por complexidade da seguinte forma: - Modelos Simples (Regressão Logística e XGBoost): Projetam manualmente características (por exemplo, diferenças de volume de oferta e demanda, desequilíbrios entre oferta e demanda) como entradas de modelo. O mais rápido, e podemos entender como o modelo faz julgamentos com base em suas características, e sabemos por que isso acontece. - Modelos Híbridos (CNN+CatBoost e CNN+XGBoost): Em vez de projetar manualmente as funcionalidades, deixe a rede neural aprender as características dos dados por conta própria e então alimentar essas características na árvore de decisão. A vantagem é que é possível encontrar combinações de características que são inesperadas por artissóis, mas a desvantagem é que essas características são difíceis de explicar, e não sabemos por que são conhecidas. - Deep Model (DeepLOB e sua versão simplificada): Uma rede neural completamente completa de ponta a ponta que completa automaticamente tudo, desde a extração de características (a diferença é que pode extrair informações de sequência como uma característica desta vez) até o julgamento final. A métrica de avaliação é a taxa de precisão da previsão (tecnicamente chamada de pontuação F1, que mede "quantas vezes você realmente subiu quando disse que realmente subiu" e "quantas vezes você pegou quando realmente subiu", 0 a 1, quanto maior melhor). Registre o tempo de treinamento ao mesmo tempo. 80% do conjunto de treinamento e 20% do conjunto de teste, sem validação cruzada, porque os dados de temporização não são adequados para embaralhamento aleatório. Ponto central 1: A qualidade dos dados é mais importante do que a seleção do modelo Considere a previsão de um livro de ordens de três categorias de 500ms e 40 camadas como exemplo: - O mesmo XGBoost tem uma precisão de previsão de 0,45 ao inserir dados brutos, mas ela sobe para 0,54 após o suavizamento SG, um aumento de cerca de 21%. - Trocar o modelo por um DeepLOB mais complexo, que apresenta menor quantidade de dados brutos (0,43). Mesmo que o DeepLOB faça suavização SG (0,52), ainda não é tão bom quanto o XGBoost+SG (0,54). A melhoria na qualidade dos dados supera em muito a melhoria na complexidade do modelo. Por que o filtro SG é tão eficaz? Os dados brutos do livro de ordens são muito fris, e o preço e o volume de pedidos pendentes disparam violentamente no nível de milissegundos, o que a indústria geralmente acredita ser um "flicker" causado pelos formadores de mercado ajustando rapidamente as cotações. O filtragem SG consiste em pegar uma pequena janela e deslizar sobre os dados, ajustar uma curva suave na janela em cada posição e considerar o valor do ponto central da curva como resultado de suavização. Diferente de uma simples média móvel, ela não desgasta o verdadeiro ponto de virada da tendência – porque usa curvas para ajustar o formato dos dados, não uma média aproximada. Uma linha de código em scipy pode ser chamada, janela 21, e polinômios de terceira ordem são os parâmetros mais estáveis do artigo, que podem ser usados como ponto de partida para sua pesquisa. 2. A janela de decisão restringe a complexidade do modelo Dois conceitos devem ser distinguidos aqui: - O tempo de treinamento é tempo de treinamento offline do modelo (uma única vez) - Tempo de inferência é o momento em que o modelo faz previsões para cada novo dado no mercado real A frequência de inferência depende do desenho da estratégia, e a duração da janela de decisão determina o limite superior da velocidade de inferência, e o limite superior da velocidade de inferência restringe a complexidade do modelo. ...

Melhores

Classificação

Favoritos