每个大型语言模型训练数据中包含Reddit用户的废话,是其在处理任何重要问题时显得无望的一个重要原因,因为人们往往把它当作一个人来询问,而不是仅仅让它编写代码、处理数据、提供客户支持等。
Aakash Gupta
Aakash Gupta3月16日 11:48
在Reddit上,50%的所有关系建议是“离开”。15年的数据,5200万条评论,趋势线只朝一个方向发展。 一位研究人员将r/relationship_advice筛选至1,166,592条优质评论,并追踪人们实际推荐的内容。在2010年,“结束关系”约占30%。到2025年,这一比例接近50%。 “沟通”从22%降至14%。 “妥协”从7%降至3%。 “给空间”从25%降至13%。每一个需要耐心的类别每年都在失 ground。 唯一一个增长速度超过“离开”的类别是“寻求治疗”,其比例从1%上升到6%。这个子版块正在慢慢学会说“这超出了我的能力范围”。 在这个数据集上训练一个模型,它绝对会告诉人们分手。训练数据中50%是“离开”,并且还在上升。这个模型不会出错。它将准确反映5200万评论者对你关系的真实看法。 一个50%的先验认为你应该离开,一个14%的先验认为你应该谈谈,一个6%的先验认为你需要专业人士。这不是大型语言模型的精神错乱。这是对你关系的中位人类意见,由有史以来最大建议数据集支持。
垃圾进,垃圾出
127