数据集概述
本数据集是通过News Ninja游戏收集的众包标注数据,用于提升语言媒体偏见的自动检测能力。数据包含玩家标注的句子偏见标签、专家对比标注及玩家人口统计信息,所有数据匿名化处理,可支持媒体偏见检测模型训练与标注一致性分析。
文件详解
- ExportNewsNinja.csv
- 文件格式:CSV
- 字段映射介绍:包含520条句子(前370条为BABE重标注句,后150条为新句子),字段包括句子文本(sentence)、被标注为偏见的词汇(words)、BABE基准标签(ground_Truth)、玩家标注的句子偏见多数投票结果(majority_vote)及单玩家标注记录(annotatedAsBiased_1至annotatedAsBiased_6等)。
- AnalysisNewsNinja.xlsx
- 文件格式:XLSX
- 字段映射介绍:包含520条句子,字段包括完整句子(Sentence)、玩家标注的句子偏见标签(isBiased Game)、专家标注标签(isBiased Expert)、标注一致性对比(Game VS Expert、Expert VS BABE、Game VS BABE)及错误类型标记(false negative、false positive)。
- demographics.csv
- 文件格式:CSV
- 字段映射介绍:包含玩家人口统计信息,字段包括性别(gender)、年龄(age)、教育程度(educationLevel)、英语熟练度(englishLevel)、政治倾向(politicalSpectrum)、新闻消费习惯(newsConsumption)及常看媒体(newsOutlets)。
数据来源
ANON开发的News Ninja游戏
适用场景
- 媒体偏见检测模型训练: 利用标注的句子偏见标签训练自动检测模型,提升检测精度。
- 众包标注质量评估: 对比玩家标注与专家、BABE基准标签的一致性,分析众包标注的可靠性。
- 标注者行为研究: 结合人口统计数据,探究玩家特征对媒体偏见标注结果的影响。
- 媒体偏见可视化研究: 基于标注数据开发可视化工具,助力媒体偏见的直观呈现与 mitigation。