媒体偏见标注专家数据集

数据集概述

本数据集聚焦媒体偏见检测,通过对比众包标注与专家标注的差异,验证专家标注对提升数据质量的作用。数据包含专家标注结果、众包原始数据及标注指南,旨在为偏见检测模型提供更可靠的基准数据,解决现有偏见语料库标注一致性低的问题。

文件详解

  • 专家标注文件:
  • annotations_expert1.xlsx: Excel格式,包含第一位专家对媒体文本的偏见标注数据
  • annotations_expert2.xlsx: Excel格式,包含第二位专家对媒体文本的偏见标注数据
  • 众包原始数据:
  • prolific_raw.txt: TXT格式,包含众包平台收集的原始标注数据,字段包括id、created_at、survey_record_id、annotation_sentence_id、sentence_group_id、label、words、factual、age、gender、education、native_english_speaker、political_ideology、followed_news_outlets等
  • 标注规范文件:
  • annotation_guidelines.pdf: PDF格式,提供偏见标注的标准操作指南

适用场景

  • 媒体偏见检测研究: 用于训练和优化自动偏见检测模型
  • 标注方法对比分析: 比较众包标注与专家标注的质量差异
  • 自然语言处理应用: 提升文本偏见识别系统的准确性
  • 社会科学研究: 分析不同群体对媒体偏见的感知差异
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 2.41 MiB
最后更新 2025年12月22日
创建于 2025年12月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。