COVID-19开放研究数据集论文摘要数据集-CSV格式2021-huascarmendez1
数据来源:互联网公开数据
标签:COVID-19,开放研究数据集,CORD-19,CSV,论文摘要,科研数据,数据处理
数据概述:
本数据集是COVID-19开放研究数据集挑战(CORD-19)的部分提取,旨在简化原始JSON格式数据的分析。原始数据存储在JSON文件中,结构较为复杂,因此进行了预处理,包括过滤出专门讨论COVID-19及其别名的文档,并进行了其他常规的数据审查和清理工作。
数据集包含多个CSV格式的文件,根据原始来源分为Biorxiv、Comm_use、Custom_licence、Nomcomm_use四类。每种类型的文件包含以下核心字段:
- paper_id:论文的唯一标识符
- doc_title:论文的标题
- doc_text:论文的摘要或正文文本
- source:数据来源类别
数据用途概述:
该数据集适用于COVID-19相关研究、文献分析、信息检索、自然语言处理等多种场景。研究人员可以利用此数据集进行大规模文本分析,了解COVID-19相关的研究成果;教育者可以使用此数据集进行教学演示和案例分析;政策制定者可以参考数据评估公共卫生政策的有效性;开发者可以利用此数据集进行文本挖掘和机器学习模型训练。