COVID-19开放研究论文与作者数据集

COVID-19开放研究论文与作者数据集 数据来源:互联网公开数据
标签:COVID-19, 论文文本, 作者信息, 开放研究, 科研协作, 数据提取, 文本挖掘

数据概述:
本数据集是对CORD-19(COVID-19开放研究数据集挑战)的论文文本和作者信息进行提取和整理的结果。数据集包含三个核心文件:
1. papers.csv:按论文粒度整理的数据,每行代表一篇论文,包含论文正文文本、唯一标识符等信息。
2. authors.csv:按作者粒度整理的数据,每行代表一位作者,包含作者姓名、所属机构等元数据,并通过唯一标识符进行区分。
3. lookup.csv:论文与作者的关联表,用于研究作者间的合作网络,通过唯一标识符建立论文与作者的关系。

数据用途概述:
该数据集适用于多种研究场景,包括但不限于:
1. 研究人员可利用论文文本进行文本挖掘,分析科学界在COVID-19领域的研究进展和热点方向。
2. 作者信息可用于研究学术网络,分析合作模式、机构分布及科研产出规律。
3. 数据集支持科研协作研究,帮助识别高影响力作者或机构,为学术合作提供参考。
4. 数据集还可用于开发科研信息检索工具,提升论文和作者信息的可访问性和利用率。
5. 政策制定者可基于数据集了解科研资源分配和科研产出之间的关系,优化科研资源配置。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 125.76 MiB
最后更新 2025年4月20日
创建于 2025年4月20日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。