数据集概述
本数据集为EveOut,包含2019年1月至2020年5月期间收集的七万七千五百四十五条新闻事件数据。数据来源于全球排名前五的新闻媒体,通过Event Registry API获取,旨在支持事件与媒体选择关系的研究,可用于分析事件选择偏差、地理分布、时间特征等多维度内容。
文件详解
- 文档类文件
- 文件名称:
README.txt
- 文件格式:TXT
- 字段映射介绍:提供数据集的总体信息、文件分类说明(元数据、数据集、数据描述文件)
- 文件名称:
data-description.txt
- 文件格式:TXT
- 字段映射介绍:包含数据集的标题、研究背景及数据用途的详细说明
- 元数据类文件
- 文件名称:
metadata.txt
- 文件格式:TXT
- 字段映射介绍:记录数据集的元数据信息
- 文件名称:
metadata.xml
- 文件格式:XML
- 字段映射介绍:以XML格式存储的数据集元数据
- 数据类文件
- 文件名称:
dataset.csv
- 文件格式:CSV
- 字段映射介绍:包含uri、title(事件标题)、event_date(事件日期)、sentiment(情感倾向)、categories(事件类别)、loc_country(国家)、loc_continent(大洲)、article_count(报道数)、total_article_count(总报道数)、summary(摘要)及nytimes、indiatimes等五家媒体的报道标记字段
- 文件名称:
dataset.xml
- 文件格式:XML
- 字段映射介绍:以XML格式存储的事件数据集,包含与CSV文件对应的核心字段
- 文件名称:
dataset_json
- 文件格式:无扩展名(JSON格式)
- 字段映射介绍:以JSON格式存储的事件数据集,包含事件的完整结构化信息
数据来源
Event Registry API
适用场景
- 媒体事件选择偏差研究:分析不同媒体对同一事件的报道倾向与选择差异
- 新闻事件多维度分析:探究事件的地理分布(国家/大洲)、时间特征、情感倾向及类别分布规律
- 数字人文应用开发:支持事件预测(如媒体报道预测)等创新性应用场景
- 媒体关系网络研究:构建事件与媒体之间的关联网络,分析媒体报道的协同性与差异性