COVID-19科研文章数据集-Elsevier-2020-kashnitsky
数据来源:互联网公开数据
标签:COVID-19,科研文章,Elsevier,公开数据,疫情研究,学术论文,元数据
数据概述:
本数据集包含2020年3月31日前Elsevier提供的约20,000篇与COVID-19相关的科研文章的元数据。经过处理后,筛选出了约13,000篇具有标题和摘要的文章。数据集分为两个主要部分:
covid_articles_elsevier_train.csv – 包含10,000篇用于训练的数据集
covid_articles_elsevier_validation.csv – 包含2,967篇用于验证的数据集
此外,还包含一个meta文件夹,该文件夹提供了从Elsevier SFTP服务器下载的元数据信息(不包含XML和PDF文件)。如需获取完整的XML和PDF文件,可以从指定的SFTP服务器下载(约5GB XML文件,20GB PDF文件)。
数据用途概述:
该数据集适用于COVID-19相关的研究、数据分析、机器学习模型训练与验证、文本挖掘等多个场景。研究人员可以利用此数据集进行疫情发展趋势分析、科研成果整理、信息检索系统开发等研究工作。教育机构可以将数据集用于教学,帮助学生了解科研文章的结构和内容。此外,该数据集也适合用于自然语言处理、信息检索等领域的研究与开发。