数据集

Vidgen_Recalibrating_classifiers_辱骂内容检测分类器校准数据集_2020

数据集概述

本数据集包含论文《Recalibrating classifiers for interpretable abusive content detection》的相关数据与代码，涉及两类标注推文（各1000条，分别基于Davidson和Perspective分类器采样）、校准代码（R和STAN语言）及标注指南文档，用于实现可解释的辱骂内容检测分类器校准。

文件详解

标注数据文件
文件名称：Vidgen-etal-recalibration-Davidson-annotations.csv
文件格式：CSV
字段映射介绍：包含full_text（推文全文）、tweet_id（推文ID）、prob_hate（仇恨概率）、annotator_6至annotator_10（5位标注者的标注结果）等字段
文件名称：Vidgen-etal-recalibration_Perspective-annotations.csv
文件格式：CSV
字段映射介绍：包含full_text（推文全文）、tweet_id（推文ID）、TOXICITY（毒性值）、annotator_1至annotator_5（5位标注者的标注结果）等字段
代码文件
文件名称：Vidgen-etal-recalibration_recalibrationCodeForHateSpeech.R
文件格式：R
字段映射介绍：用于辱骂内容检测分类器校准的R语言代码文件
文件名称：Vidgen-etal-recalibrationsigmoid-spline-isotone.stan
文件格式：STAN
字段映射介绍：用于分类器校准的STAN语言代码文件
标注指南文档
文件名称：Vidgen-etal-recalibration_Davidson-instructions.docx
文件格式：DOCX
字段映射介绍：Davidson分类器标注任务的说明文档
文件名称：Vidgen-etal-recalibration_Perspective-instructions.docx
文件格式：DOCX
字段映射介绍：Perspective分类器标注任务的说明文档

数据来源

论文《Recalibrating classifiers for interpretable abusive content detection》by Vidgen et al. (2020)

适用场景

辱骂内容检测分类器校准: 用于Davidson和Perspective分类器的概率校准，提升分类结果的可解释性
社交媒体辱骂内容分析: 基于标注推文数据研究英国2017年大选期间针对议员的辱骂内容特征
文本分类模型可解释性研究: 探索贝叶斯方法在分类器校准中的应用，提升模型结果的可解释性
多标注者文本数据处理: 基于多标注者标注结果开展辱骂内容检测的标注一致性分析
自然语言处理代码复用: 复用R和STAN语言的分类器校准代码，应用于其他文本分类任务

数据与资源

4075461.zipZIP
0.35 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	0.35 MiB
最后更新	2025年12月31日
创建于	2025年12月31日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。