NewsNinja_Based_媒体偏见众包标注数据集_2023

数据集概述

本数据集是通过News Ninja游戏收集的众包标注数据,用于提升语言媒体偏见的自动检测能力。数据包含玩家标注的句子偏见标签、专家对比标注及玩家人口统计信息,所有数据匿名化处理,可支持媒体偏见检测模型训练与标注一致性分析。

文件详解

  • ExportNewsNinja.csv
  • 文件格式:CSV
  • 字段映射介绍:包含520条句子(前370条为BABE重标注句,后150条为新句子),字段包括句子文本(sentence)、被标注为偏见的词汇(words)、BABE基准标签(ground_Truth)、玩家标注的句子偏见多数投票结果(majority_vote)及单玩家标注记录(annotatedAsBiased_1至annotatedAsBiased_6等)。
  • AnalysisNewsNinja.xlsx
  • 文件格式:XLSX
  • 字段映射介绍:包含520条句子,字段包括完整句子(Sentence)、玩家标注的句子偏见标签(isBiased Game)、专家标注标签(isBiased Expert)、标注一致性对比(Game VS Expert、Expert VS BABE、Game VS BABE)及错误类型标记(false negative、false positive)。
  • demographics.csv
  • 文件格式:CSV
  • 字段映射介绍:包含玩家人口统计信息,字段包括性别(gender)、年龄(age)、教育程度(educationLevel)、英语熟练度(englishLevel)、政治倾向(politicalSpectrum)、新闻消费习惯(newsConsumption)及常看媒体(newsOutlets)。

数据来源

ANON开发的News Ninja游戏

适用场景

  • 媒体偏见检测模型训练: 利用标注的句子偏见标签训练自动检测模型,提升检测精度。
  • 众包标注质量评估: 对比玩家标注与专家、BABE基准标签的一致性,分析众包标注的可靠性。
  • 标注者行为研究: 结合人口统计数据,探究玩家特征对媒体偏见标注结果的影响。
  • 媒体偏见可视化研究: 基于标注数据开发可视化工具,助力媒体偏见的直观呈现与 mitigation。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.8 MiB
最后更新 2026年1月28日
创建于 2026年1月28日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。