A inclusão de bobagens do Redditor nos dados de treinamento de todo LLM é uma grande parte do motivo pelo qual é impossível se você realmente está pedindo para ele opinar sobre algo importante, como se fosse uma pessoa, em vez de apenas escrever código, processar dados, fazer suporte ao cliente, etc.
Aakash Gupta
Aakash Gupta16 de mar., 11:48
50% de todos os conselhos de relacionamento no Reddit são "vá embora". 15 anos de dados, 52 milhões de comentários, e a linha de tendência só vai em uma direção. Um pesquisador filtrou o r/relationship_advice para 1.166.592 comentários de qualidade e acompanhou o que as pessoas realmente recomendam. Em 2010, "Fim de Relacionamento" estava em torno de 30%. Em 2025, está chegando perto de 50%. "Comunicar" caiu de 22% para 14%. "Compromisso" despencou de 7% para 3%. "Give Space" caiu de 25% para 13%. Toda categoria que exige paciência perdia terreno a cada ano. A categoria que cresce mais rápido que "sair" é "Seek Therapy", que passou de 1% para 6%. O subreddit está aprendendo aos poucos a dizer "isso está acima do meu salário." Treine um modelo nesse conjunto de dados e ele com certeza dirá para as pessoas se separarem. Os dados de treinamento são 50% "saída" e escalada. O modelo não estaria quebrado. Isso refletiria com precisão o que 52 milhões de comentaristas realmente pensam sobre seu relacionamento. Um 50% antes de que você deva sair, um 14% antes de que você deva falar sobre isso, e um 6% antes de precisar de um profissional. Isso não é psicose de LLM. Essa é a opinião média dos humanos sobre seu relacionamento, apoiada pelo maior conjunto de dados de conselhos já montado.
Lixo entra, lixo sai.
115