COVID-19新闻数据集

COVID-19新闻数据集 数据来源:互联网公开数据
标签:新闻数据,COVID-19,文本分类,自然语言处理,机器学习,疫情分析,信息抽取

数据概述:
本数据集包含约50万篇新闻文章,记录了2020年至2022年全球COVID-19疫情期间的新闻报道。数据集包含三个字段:标题、内容和类别。标题为文章的标题,内容为文章正文,类别表示文章的总体主题。数据集覆盖了疫情期间的各类新闻事件,为研究疫情相关话题提供了丰富的文本资源。

数据用途概述:
该数据集适用于多种场景,包括但不限于:
1. 用于预训练大型语言模型(LLMs),提升模型对疫情相关文本的理解能力。
2. 作为自然语言处理(NLP)任务的数据集,支持文本分类(如二分类或多分类)、信息抽取等任务的研究与实践。
3. 用于研究语言模型在数据分布变化下的行为差异,例如比较疫情前训练的BERT模型与使用本数据集训练的新模型之间的表现差异。
4. 支持疫情相关研究,帮助分析疫情期间公众关注的热点话题、媒体报道趋势等。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 1035.73 MiB
最后更新 2025年6月4日
创建于 2025年6月4日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。