A inclusão de conteúdo de Redditor em todos os dados de treinamento dos LLMs é uma grande parte do motivo pelo qual é inútil se você realmente está pedindo que ele opine sobre algo importante como se fosse uma pessoa, em vez de apenas escrever código, processar dados, fazer suporte ao cliente, etc.
Aakash Gupta
Aakash Gupta16/03, 11:48
50% de todos os conselhos sobre relacionamentos no Reddit é "sair." 15 anos de dados, 52 milhões de comentários, e a linha de tendência só vai numa direção. Um pesquisador filtrou r/relationship_advice para 1.166.592 comentários de qualidade e acompanhou o que as pessoas realmente recomendam. Em 2010, "Terminar Relacionamento" estava em torno de 30%. Até 2025, está se aproximando de 50%. "Comunicar" caiu de 22% para 14%. "Comprometer-se" colapsou de 7% para 3%. "Dar Espaço" caiu de 25% para 13%. Cada categoria que requer paciência perdeu terreno a cada ano. A única categoria que está crescendo mais rápido do que "sair" é "Buscar Terapia," que passou de 1% para 6%. O subreddit está lentamente aprendendo a dizer "isso está acima do meu nível de competência." Treine um modelo com este conjunto de dados e ele absolutamente diria às pessoas para terminarem. Os dados de treinamento são 50% "sair" e subindo. O modelo não estaria quebrado. Estaria refletindo com precisão o que 52 milhões de comentaristas realmente acreditam sobre seu relacionamento. Um 50% anterior que você deve sair, um 14% anterior que você deve falar sobre isso, e um 6% anterior que você precisa de um profissional. Isso não é psicose de LLM. Essa é a opinião média humana sobre seu relacionamento, respaldada pelo maior conjunto de dados de conselhos já reunido.
Lixo entra, lixo sai
124