La inclusión de tonterías de Redditor en los datos de entrenamiento de todos los LLMs es una gran parte de por qué es imposible si realmente le pides que opine sobre algo importante, como si fuera una persona, en vez de solo escribir código, procesar datos, hacer atención al cliente, etc.
Aakash Gupta
Aakash Gupta16 mar, 11:48
El 50% de todos los consejos sobre relaciones en Reddit son "vete". 15 años de datos, 52 millones de comentarios, y la línea de tendencia solo va en una dirección. Un investigador filtró r/relationship_advice a 1.166.592 comentarios de calidad y rastreó lo que la gente realmente recomienda. En 2010, "Terminar la relación" rondaba el 30%. Para 2025, se acerca al 50%. "Comunicar" bajó del 22% al 14%. "Compromise" se desplomó del 7% al 3%. "Give Space" cayó del 25% al 13%. Cada categoría que requiere paciencia perdía terreno cada año. La categoría que crece más rápido que "salir" es "Seek Therapy", que pasó del 1% al 6%. El subreddit está aprendiendo poco a poco a decir "esto está por encima de mi nivel." Entrena un modelo con este conjunto de datos y sin duda indicaría a la gente que se descomponga. Los datos de entrenamiento son un 50% "salida" y ascenso. El modelo no estaría roto. Reflejaría con precisión lo que 52 millones de comentaristas realmente creen sobre vuestra relación. Un 50% antes de que deberías irte, un 14% antes de que hables de ello y un 6% antes de que necesites un profesional. Eso no es psicosis LLM. Esa es la opinión media de los humanos sobre vuestra relación, respaldada por el mayor conjunto de datos de consejos jamás reunido.
Basura dentro, basura fuera
116