Twitter仇恨言论检测与分析数据集

数据集概述

该数据集包含用于Twitter仇恨言论检测与分析研究的两个语料库:2017年2月至12月收集的200万条原始推文,以及6000条标注是否包含仇恨内容的推文,为相关研究提供数据支持。

文件详解

  • 文件名称:labeled_corpus_6K.txt
  • 文件格式:TXT(.txt)
  • 字段映射:每条记录含三个字段,以"||;"分隔,分别为推文ID(id)、推文内容(文本)、标注标签(0或其他值,代表是否含仇恨内容)
  • 文件名称:raw_corpus_2M.zip
  • 文件格式:ZIP压缩包(.zip)
  • 内容说明:包含2017年2月至12月收集的200万条原始推文数据

适用场景

  • 自然语言处理研究:仇恨言论检测模型的训练与验证
  • 社交媒体内容分析:Twitter平台仇恨言论传播模式研究
  • 计算语言学应用:文本标注与分类算法的性能评估
  • 社会科学研究:网络仇恨言论的特征与趋势分析
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 130.83 MiB
最后更新 2025年12月8日
创建于 2025年12月8日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。