Tendencias del momento
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Hoy leí un artículo de 2025 titulado "Usar datos de libros de órdenes para predecir la tendencia de precios a corto plazo de las criptomonedas", el autor tiene la cuenta X @Kev, todos pueden ir a echar un vistazo. El hallazgo central del artículo: el preprocesamiento de datos de alta frecuencia es más importante que la complejidad del modelo, es decir, después de hacer una buena limpieza de datos, diseñar características manualmente + un modelo simple, tiene un rendimiento comparable e incluso mejor que un modelo profundo (aprendizaje automático automático de características con redes neuronales). Este hallazgo es un consenso en el ámbito financiero tradicional, pero no es común en la investigación sobre el mercado de criptomonedas en este aspecto.
Los datos de investigación del autor son datos originales de libros de órdenes L2 de Bybit obtenidos de la interfaz pública el 30 de enero de 2025. Se toma una instantánea cada 100 ms, con un máximo de 200 niveles de órdenes de compra y venta por instantánea. El experimento principal utilizó 100,000 registros (aproximadamente 166 minutos), y el experimento secuencial se amplió a 1,000,000 registros (aproximadamente 28 horas). Los datos están disponibles de forma gratuita, por lo que la reproducibilidad del artículo es bastante buena.
El método de investigación consiste en dividir los datos en tres grupos: sin filtrar, filtrado SG y filtrado de Kalman, y luego introducirlos en 6 modelos diferentes, prediciendo la dirección del precio 100 ms / 500 ms / 1 s después bajo etiquetas de clasificación binaria (subida/bajada) y de clasificación ternaria (subida/estabilidad/bajada). En total, hay 3 (preprocesamiento de datos) × 6 (6 grupos de modelos) × 2 (resultados de predicción como clasificación binaria o ternaria) × 3 (tres ventanas de predicción) = 108 grupos de experimentos.
Los modelos se agrupan según su complejidad de la siguiente manera:
- Modelos simples (regresión logística y XGBoost): características diseñadas manualmente (como la diferencia de volumen de compra y venta, desequilibrio de oferta y demanda) se utilizan como entrada del modelo. Son los más rápidos y podemos entender cómo el modelo toma decisiones basadas en las características, comprendiendo tanto el "qué" como el "por qué".
- Modelos híbridos (CNN+CatBoost y CNN+XGBoost): ya no se diseñan características manualmente, sino que se permite que la red neuronal aprenda las características de los datos por sí misma, y luego se introducen estas características en un árbol de decisión. La ventaja es que puede descubrir combinaciones de características que no se habrían imaginado, pero la desventaja es que estas características son difíciles de interpretar, comprendiendo el "qué" pero no el "por qué".
- Modelos profundos (DeepLOB y su versión simplificada): una red neuronal completamente de extremo a extremo, desde la extracción de características (y la diferencia con lo anterior es que esta vez puede extraer información secuencial como características) hasta la decisión final, todo se completa automáticamente, comprendiendo el "qué" pero no el "por qué".
El indicador de evaluación es la tasa de aciertos de predicción (técnicamente llamada puntuación F1, que mide "cuántas veces realmente subió cuando dijiste que subiría" y "cuántas veces capturaste realmente cuando subió", de 0 a 1, cuanto más alto, mejor). También se registra el tiempo de entrenamiento. 80% del conjunto de entrenamiento, 20% del conjunto de prueba, no se realizó validación cruzada, ya que los datos temporales no son adecuados para ser desordenados aleatoriamente.
Punto central 1: La calidad de los datos es más importante que la selección del modelo.
Tomando como ejemplo la predicción de un libro de órdenes de 40 niveles a 500 ms en clasificación ternaria:
- Con el mismo XGBoost, al introducir datos originales, la tasa de aciertos es 0.45, y después de aplicar el suavizado SG, sube a 0.54, un aumento de aproximadamente 21%.
- Al cambiar el modelo a uno más complejo, DeepLOB, la tasa en datos originales es incluso más baja (0.43). Incluso si DeepLOB también aplica suavizado SG (0.52), sigue siendo inferior a XGBoost+SG (0.54).
La mejora en la calidad de los datos supera con creces la mejora en la complejidad del modelo.
¿Por qué el filtrado SG es tan efectivo?
Los datos originales del libro de órdenes son muy ruidosos, los precios y los volúmenes de órdenes fluctúan drásticamente a nivel de milisegundos, y en la industria se suele considerar que esto es causado por el "parpadeo" de los creadores de mercado que ajustan rápidamente las cotizaciones. El filtrado SG utiliza una pequeña ventana que se desliza sobre los datos, y en cada posición se ajusta una curva suave dentro de la ventana, tomando el valor del punto central de la curva como resultado suavizado. A diferencia de la media móvil simple, no elimina los verdaderos puntos de inflexión de tendencia, porque ajusta la forma de los datos con una curva, en lugar de simplemente promediar. Se puede llamar con una línea de código en scipy, con una ventana de 21 y un polinomio de tercer grado como los parámetros más estables en el artículo, que pueden servir como punto de partida para la investigación de todos.
2. La ventana de decisión limita la complejidad del modelo.
Aquí hay que distinguir dos conceptos:
- El tiempo de entrenamiento es el tiempo de entrenamiento del modelo fuera de línea (una sola vez).
- El tiempo de inferencia es el tiempo que tarda el modelo en hacer una predicción cada vez que llega un nuevo dato en tiempo real.
La frecuencia de inferencia depende del diseño de la estrategia, la duración de la ventana de decisión determina el límite superior de la velocidad de inferencia, y el límite superior de la velocidad de inferencia restringe la complejidad del modelo.
...

Parte superior
Clasificación
Favoritos
