维基百科讨论页评论数据集个人攻击标签
数据来源:互联网公开数据
标签:维基百科,讨论页,个人攻击,毒性评论,自然语言处理,机器学习,数据集
数据概述:
本数据集收录了来自英文维基百科讨论页的评论数据,主要用于研究和检测讨论中的个人攻击和毒性言论。数据按年份分组,每条评论通过比较完整修订历史的差异(diff)生成,提取每次修订新增的内容。数据集的标注问卷可用于识别和分类毒性评论,具体细节可参考相关GitHub项目和文档。
数据用途概述:
该数据集适用于以下场景:
1. 毒性评论检测:研究人员可利用此数据训练机器学习模型,自动识别和分类毒性评论,特别是个人攻击类型。
2. 社区健康研究:分析毒性言论对维基百科讨论社区的影响,评估其对社区健康和协作环境的破坏性。
3. 工具开发:基于模型结果,开发可视化工具或干预机制,帮助识别和缓解讨论中的毒性行为。
4. 自然语言处理研究:为NLP领域提供丰富的标注数据,支持毒性言论检测、情感分析和文本分类等研究方向。
5. 政策制定支持:为制定改善社区讨论环境的政策提供数据支持,评估干预措施的效果。
数据字段简介:
- 评论内容:英文讨论页中的具体评论文本。
- 年份:评论所属的年份,按年份分组存储。
- 标注标签:标注结果,标记是否为毒性评论,特别是是否包含个人攻击。
数据特点:
- 时间跨度:数据覆盖了维基百科讨论页的多个年份,提供长期时间维度的讨论动态。
- 标注质量:通过问卷标注,确保数据的可靠性,可用于训练高精度的毒性检测模型。
- 规模:数据集包含大量讨论评论,为大规模分析和模型训练提供了充足样本。
应用场景:
1. 学术研究:支持毒性言论检测、社区健康研究和自然语言处理领域的学术研究。
2. 工具开发:用于开发实时毒性评论检测工具,提升在线社区的讨论质量。
3. 政策制定:为维基百科及其他在线平台制定社区管理政策提供数据支持。
数据获取与使用:
- 数据获取:数据集可通过相关项目链接下载,具体获取方式请参考项目文档。
- 使用限制:数据仅用于研究和开发用途,不得用于违法或不当目的。
通过该数据集,研究人员和开发者可以深入分析维基百科讨论页中的毒性言论问题,并探索有效的解决方案,以提升在线社区的健康与协作水平。