Inkluderingen av Reddit-tull i alle LLM-ers opplæringsdata er en stor del av grunnen til at det er håpløst hvis du faktisk ber dem om å komme med innspill på noe viktig, som en person, i stedet for bare å skrive kode, behandle data, drive med kundestøtte osv.
Aakash Gupta
Aakash Gupta16. mars, 11:48
50 % av all forholdsråd på Reddit er «gå». 15 år med data, 52 millioner kommentarer, og trendlinjen går bare én vei. En forsker filtrerte r/relationship_advice ned til 1 166 592 kvalitetskommentarer og sporet hva folk faktisk anbefaler. I 2010 lå «End Relationship» på rundt 30 %. Innen 2025 nærmer den seg 50 %. "Communicate" falt fra 22 % til 14 %. "Kompromiss" falt fra 7 % til 3 %. "Gi plass" falt fra 25 % til 13 %. Hver kategori som krever tålmodighet mistet terreng hvert eneste år. Den ene kategorien som vokser raskere enn «forlat» er «Søk terapi», som gikk fra 1 % til 6 %. Subredditen lærer sakte å si «dette er over mitt lønnsnivå.» Tren en modell på dette datasettet, og den vil absolutt fortelle folk å bryte opp. Treningsdataene er 50 % «leave» og stiger. Modellen ville ikke vært ødelagt. Det ville nøyaktig gjenspeile hva 52 millioner kommentatorer faktisk mener om forholdet deres. 50 % før du bør dra, 14 % før du bør snakke om det, og 6 % før du trenger en fagperson. Det er ikke LLM-psykose. Det er den gjennomsnittlige menneskelige meningen om forholdet ditt, støttet av det største rådgivningsdatasettet som noen gang er samlet.
Søppel inn, søppel ut
122