I dag leste jeg en artikkel fra 2025 «Predicting Short-term Cryptocurrency Price Trends with Order Book Data», og forfatteren har også en X-konto @Kev, så du kan gå og se. Kjernefunnet i denne artikkelen er at høyfrekvent dataforbehandling har forrang over modellkompleksitet, det vil si at etter datarensing er manuell utforming av funksjoner + enkle modeller sammenlignbar med, eller til og med bedre, enn fullstendig automatiske (nevrale nettverk automatiske læringsfunksjoner) dype modeller. Dette funnet er den allmenne konsensusen i det tradisjonelle finansfeltet, men det er sjeldent å forske på kryptomarkedet. Forfatterens forskningsdata er de opprinnelige ordreboken L2-data fra Bybits offentlige grensesnitt 30. januar 2025. Ett snapshot hver 100 ms, med maksimalt 200 lag med ordre per snapshot. Hovedeksperimentet tok 100 000 biter (omtrent 166 minutter), og sekvenseksperimentet ble utvidet til 1 million biter (omtrent 28 timer). Dataene er fritt tilgjengelige, så artikkelens reproduserbarhet er god. Forskningsmetoden er å dele dataene inn i tre grupper: ufiltrert, SG-filtrert og Kalman-filtrert, og deretter legge inn 6 modeller separat, og forutsi prisretningen etter 100ms / 500ms / 1s under etikettene binær klassifisering (oppgang/fall) og tre klassifiseringer (oppgang/flat/fall), henholdsvis. Totalt 3 (dataforbehandling), × 6 (6 sett med modeller), ×2 (prediksjon av binære eller trippelklassifiseringsresultater), × 3 (tre prediksjonstidsvinduer) = 108 sett med eksperimenter. Modellene er gruppert etter kompleksitet som følger: - Enkle modeller (logistisk regresjon og XGBoost): Manuell design av funksjoner (f.eks. forskjeller mellom bud og forespørsel, ubalanser mellom tilbud og etterspørsel) som modellinput. Den raskeste, og vi kan forstå hvordan modellen gjør vurderinger basert på sine egenskaper, og vi vet hvorfor det er slik. - Hybridmodeller (CNN+CatBoost og CNN+XGBoost): I stedet for å designe funksjoner manuelt, la det nevrale nettverket lære datafunksjonene på egenhånd og deretter mates disse inn i beslutningstreet. Fordelen er at det er mulig å finne kombinasjoner av egenskaper som er uventede kunstige, men ulempen er at disse egenskapene er vanskelige å forklare, og vi vet ikke hvorfor de er kjent. - Dyp modell (DeepLOB og dens forenklede versjon): Et fullstendig ende-til-ende nevralt nettverk som automatisk fullfører alt fra funksjonsuttrekking (forskjellen er at det kan trekke ut sekvensinformasjon som en egenskap denne gangen) til den endelige vurderingen. Evalueringsmetrikken er prediksjonsnøyaktigheten (teknisk kalt F1-scoren, som måler «hvor mange ganger du egentlig gikk opp da du sa den virkelig gikk opp» og «hvor mange ganger du fanget den da den virkelig gikk opp», 0 til 1, jo høyere jo bedre). Registrer treningstid samtidig. 80 % av treningssettet og 20 % av testsettet, uten kryssvalidering, fordi tidsdataene ikke egner seg for tilfeldig stokking. Kjernepunkt 1: Datakvalitet er viktigere enn modellvalg Ta prediksjonen fra en tre-kategori 500ms 40-lags ordrebok som et eksempel: - Den samme XGBoost har en prediksjonsnøyaktighet på 0,45 ved inntasting av rådata, men stiger til 0,54 etter SG-utjevning, en økning på omtrent 21 %. - Bytte ut modellen med en mer kompleks DeepLOB, som har lavere rådata (0,43). Selv om DeepLOB gjør SG-utjevning (0,52), er det fortsatt ikke like bra som XGBoost+SG (0,54). Forbedringen i datakvalitet veier langt tyngre enn forbedringen i modellens kompleksitet. Hvorfor er SG-filtrering så effektivt? De rå ordrebokdataene er svært frizzy, og prisen og ventende ordrevolum hopper voldsomt på millisekundnivå, noe bransjen vanligvis tror er et «glimt» forårsaket av at markedsmakere raskt justerer kursene. SG-filtrering er å ta et lite vindu og skyve på dataene, tilpasse en jevn kurve i vinduet på hver posisjon, og ta verdien av kurvens midtpunkt som utjevningsresultat. I motsetning til et enkelt glidende gjennomsnitt, sliter det ikke ut det reelle trendvendepunktet – fordi det bruker kurver for å tilpasse formen på dataene, ikke grovt gjennomsnitt. En kodelinje i scipy kan kalles vindu 21, og tredjeordens polynomer er de mest stabile parameterne i artikkelen, som kan brukes som utgangspunkt for forskningen din. 2. Beslutningsvinduet begrenser modellens kompleksitet To konsepter bør skilles her: - Treningstid er offline modelltreningstid (én gang) - Inferenstid er tidspunktet da modellen gjør prediksjoner for hvert nytt datastykke i det virkelige markedet Slutningsfrekvensen avhenger av strategidesignet, og varigheten av beslutningsvinduet bestemmer den øvre grensen for inferenshastigheten, mens den øvre grensen for slutningshastigheten begrenser modellens kompleksitet. ...