新冠病毒疫情电视新闻报道数据集
数据来源:互联网公开数据
标签:新冠疫情,电视新闻,媒体覆盖,时间序列,语境分析,传播研究,公共卫生
数据概述:
本数据集记录了2020年1月1日至2020年3月10日上午期间,多家主要电视新闻频道中所有与“冠状病毒”、“COVID”和“病毒”相关的报道内容。数据总量达119,083条,每条记录包含与报道相关的详细信息,包括:
- URL链接:指向互联网档案馆网站上对应的15秒视频片段。
- 时间和日期:匹配内容出现的具体时间(UTC时间)。
- 电视台和节目名称:报道所属的电视台及其具体节目。
- 互联网档案馆唯一标识符:用于识别每条记录的唯一标识。
- 缩略图预览:包含1分钟视频片段的缩略图,展示提及内容的上下文场景。
- 15秒语音转文字片段:对应报道中提到关键词的具体语音转文字内容,帮助理解提及的语境。
该数据集基于互联网档案馆的电视新闻档案数据构建,为研究新冠疫情期间新闻媒体的报道趋势、传播特征及公众认知提供了详实的基础数据。
数据用途概述:
本数据集适用于多种研究和分析场景,包括但不限于:
1. 媒体传播分析:研究不同电视台在新冠疫情期间对疫情的报道频率、内容侧重及语言使用特点。
2. 时间序列分析:分析疫情期间新闻报道数量和内容的变化趋势,识别关键节点和事件的影响。
3. 传播语境研究:通过语音转文字片段和缩略图预览,深入理解报道的具体语境,评估媒体报道的准确性和倾向性。
4. 公共卫生研究:为公共卫生学者提供新闻媒体报道数据,辅助分析疫情信息的传播机制和公众认知形成过程。
5. 机器学习和自然语言处理:可用于训练模型,分析疫情相关报道的情感倾向、关键词提取和话题识别等。
本数据集的数据来源为GDELT项目(https://www.gdeltproject.org/),并依据其开放许可发布。数据的采集和整理工作利用了互联网档案馆的电视新闻存档资源,确保了数据的完整性和权威性。
通过本数据集,研究人员和从业者能够全面了解新冠疫情期间电视新闻报道的全貌,为相关领域的研究和实践提供有力支持。