Temas en tendencia
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hoy he leído un artículo de 2025 titulado "Prediciendo tendencias de precios a corto plazo de criptomonedas con datos de libro de órdenes", y el autor también tiene una cuenta X @Kev, así que puedes ir y verla. El hallazgo principal de este artículo es que el preprocesamiento de datos de alta frecuencia tiene prioridad sobre la complejidad del modelo, es decir, tras la limpieza de datos, diseñar manualmente características + modelos simples es comparable o incluso mejor que los modelos profundos totalmente automáticos (características de aprendizaje automático de redes neuronales). Este hallazgo es el consenso general en el campo financiero tradicional, pero es raro investigar sobre el mercado cripto.
Los datos de investigación del autor son los datos originales de L2 del libro de orden de la interfaz pública de Bybit del 30 de enero de 2025. Una instantánea cada 100 ms, con un máximo de 200 capas de pedidos por instantánea. El experimento principal tomó 100.000 piezas (unos 166 minutos), y el experimento de secuencia se amplió a 1 millón de piezas (unas 28 horas). Los datos están disponibles libremente, por lo que la reproducibilidad del artículo es buena.
El método de investigación consiste en dividir los datos en tres grupos: sin filtrar, filtrado por SG y filtrado por Kalman, y luego introducir 6 modelos por separado, y predecir la dirección del precio tras 100ms / 500ms / 1s bajo las etiquetas de clasificación binaria (subida/bajada) y tres clasificaciones (subida/plana/bajada), respectivamente. En total, 3 (preprocesamiento de datos), × 6 (6 conjuntos de modelos), ×2 (predicción de resultados binarios o triples de clasificación), × 3 (tres ventanas temporales de predicción) = 108 conjuntos de experimentos.
Los modelos se agrupan por complejidad de la siguiente manera:
- Modelos simples (Regresión Logística y XGBoost): Diseñan manualmente características (por ejemplo, diferencias de volumen de oferta y venta, desequilibrios entre oferta y demanda) como entradas de modelo. La más rápida, y podemos entender cómo el modelo emite juicios basándose en sus características, y sabemos por qué es así.
- Modelos híbridos (CNN+CatBoost y CNN+XGBoost): En lugar de diseñar manualmente características, se permite que la red neuronal aprenda las características de los datos por sí misma y luego alimente esas características en el árbol de decisión. La ventaja es que es posible encontrar combinaciones de características que son inesperadas por lo artificial, pero la desventaja es que estas características son difíciles de explicar y no sabemos por qué se conocen.
- Deep Model (DeepLOB y su versión simplificada): Una red neuronal completamente de extremo a extremo que completa automáticamente todo, desde la extracción de características (la diferencia es que esta vez puede extraer información de secuencia como característica) hasta el juicio final.
La métrica de evaluación es la tasa de precisión de predicción (técnicamente llamada puntuación F1, que mide "cuántas veces realmente subiste cuando dijiste que realmente subió" y "cuántas veces lo pillaste cuando realmente subió", 0 a 1, cuanto más alto mejor). Registra el tiempo de entrenamiento al mismo tiempo. 80% del conjunto de entrenamiento y 20% del conjunto de pruebas, sin validación cruzada, porque los datos de temporización no son adecuados para barajar aleatoriamente.
Punto central 1: La calidad de los datos es más importante que la selección del modelo
Tomemos como ejemplo la predicción de un libro de órdenes de tres categorías de 500ms y 40 capas:
- El mismo XGBoost tiene una precisión de predicción de 0,45 al introducir datos en bruto, pero sube a 0,54 tras el suavizado SG, un incremento de aproximadamente un 21%.
- Cambiar el modelo por un DeepLOB más complejo, que es menor en los datos en bruto (0,43). Aunque DeepLOB hace suavizado de SG (0,52), sigue sin ser tan bueno como XGBoost+SG (0,54).
La mejora en la calidad de los datos supera con creces la mejora en la complejidad del modelo.
¿Por qué es tan efectivo el filtrado SG?
Los datos brutos del libro de órdenes son muy irregulares, y el precio y el volumen de órdenes pendientes suben violentamente en el nivel de milisegundos, lo que la industria suele considerar un "parpadeo" causado por los creadores de mercado ajustando rápidamente las cotizaciones. El filtrado SG consiste en tomar una ventana pequeña y deslizar los datos, ajustar una curva suave en la ventana en cada posición y tomar el valor del punto central de la curva como resultado de suavizado. A diferencia de una simple media móvil, no desgasta el verdadero punto de inflexión de la tendencia, porque utiliza curvas para ajustar la forma de los datos, no un promedio aproximado. Se puede llamar a una línea de código en scipy, ventana 21, y los polinomios de tercer orden son los parámetros más estables del artículo, que pueden usarse como punto de partida para tu investigación.
2. La ventana de decisión limita la complejidad del modelo
Aquí deben distinguirse dos conceptos:
- El tiempo de entrenamiento es tiempo de entrenamiento offline del modelo (una sola vez)
- El tiempo de inferencia es el momento en que el modelo hace predicciones para cada nuevo dato en el mercado real
La frecuencia de inferencia depende del diseño de la estrategia, y la duración de la ventana de decisión determina el límite superior de la velocidad de inferencia, y el límite superior de la velocidad de inferencia limita la complejidad del modelo.
...

Populares
Ranking
Favoritas
