数据集概述
本数据集包含论文《Recalibrating classifiers for interpretable abusive content detection》的相关数据与代码,涉及两类标注推文(各1000条,分别基于Davidson和Perspective分类器采样)、校准代码(R和STAN语言)及标注指南文档,用于实现可解释的辱骂内容检测分类器校准。
文件详解
- 标注数据文件
- 文件名称:Vidgen-etal-recalibration-Davidson-annotations.csv
- 文件格式:CSV
- 字段映射介绍:包含full_text(推文全文)、tweet_id(推文ID)、prob_hate(仇恨概率)、annotator_6至annotator_10(5位标注者的标注结果)等字段
- 文件名称:Vidgen-etal-recalibration_Perspective-annotations.csv
- 文件格式:CSV
- 字段映射介绍:包含full_text(推文全文)、tweet_id(推文ID)、TOXICITY(毒性值)、annotator_1至annotator_5(5位标注者的标注结果)等字段
- 代码文件
- 文件名称:Vidgen-etal-recalibration_recalibrationCodeForHateSpeech.R
- 文件格式:R
- 字段映射介绍:用于辱骂内容检测分类器校准的R语言代码文件
- 文件名称:Vidgen-etal-recalibrationsigmoid-spline-isotone.stan
- 文件格式:STAN
- 字段映射介绍:用于分类器校准的STAN语言代码文件
- 标注指南文档
- 文件名称:Vidgen-etal-recalibration_Davidson-instructions.docx
- 文件格式:DOCX
- 字段映射介绍:Davidson分类器标注任务的说明文档
- 文件名称:Vidgen-etal-recalibration_Perspective-instructions.docx
- 文件格式:DOCX
- 字段映射介绍:Perspective分类器标注任务的说明文档
数据来源
论文《Recalibrating classifiers for interpretable abusive content detection》by Vidgen et al. (2020)
适用场景
- 辱骂内容检测分类器校准: 用于Davidson和Perspective分类器的概率校准,提升分类结果的可解释性
- 社交媒体辱骂内容分析: 基于标注推文数据研究英国2017年大选期间针对议员的辱骂内容特征
- 文本分类模型可解释性研究: 探索贝叶斯方法在分类器校准中的应用,提升模型结果的可解释性
- 多标注者文本数据处理: 基于多标注者标注结果开展辱骂内容检测的标注一致性分析
- 自然语言处理代码复用: 复用R和STAN语言的分类器校准代码,应用于其他文本分类任务