分歧程度标注数据集

数据集概述

该数据集包含从Reddit平台收集的五千条评论,由Amazon Mechanical Turk众包工作者基于五种分歧程度(辱骂、人身攻击、矛盾、反驳论点、驳斥)进行标注,最终结果汇总为disagreement_dataset.csv文件,为分歧类型分析提供标注数据支持。

文件详解

  • 数据文件(共21个.csv格式文件):
  • 批量标注结果文件:如Batch_20_batch_results.csv、Batch_17_batch_results.csv等,包含HITId、HITTypeId、Title、Reward、CreationTime等字段,记录众包标注任务的基本信息与原始标注数据
  • 合并数据文件:如Big_7th.csv、Big_8th.csv,可能为多批次标注数据的合并文件
  • 最终汇总文件:disagreement_dataset.csv,包含所有标注完成的评论数据及分歧程度标签
  • 文档文件(1个.pdf格式文件):
  • Approval_300180163.pdf:可能为众包任务审核相关的说明文档

数据来源

Reddit平台、Amazon Mechanical Turk

适用场景

  • 自然语言处理研究:用于训练和评估分歧类型分类模型
  • 社交媒体分析:探究Reddit平台用户评论中的分歧表达方式与分布特征
  • 计算语言学研究:分析不同分歧程度的语言表达规律
  • 众包标注方法论研究:验证多批次众包标注数据的一致性与可靠性
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 7.72 MiB
最后更新 2025年12月5日
创建于 2025年12月5日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。