数据集概述
本数据集基于arXiv预印本库的处理元数据与关系映射,涵盖物理、数学、计算机科学等五大学科领域的175个科学领域,用于量化其时间动态变化。数据支持相关论文研究,包含文章级特征、补充元数据、作者ORCID关联及引用网络等四类文件,可用于分析科学领域的兴衰趋势。
文件详解
arXiv_data_with_Rescaled_times.csv(CSV格式)
- 字段:id(arXiv ID)、categories(领域标签)、doi(DOI编号)、created(提交日期)、authors(作者姓氏)、authors_orcid(ORCID ID)、NumCitationsArxiv(引用数)、NumReferencesArxiv(参考文献数)、year(提交年份)、Rescaled Times(基于Gumbel分布的 rescaled时间)、Min RT(文章所属领域最小rescaled时间)
article_metadata.tsv(TSV格式)
- 字段:id(arXiv ID)、journal.ref(期刊参考文献)、doi(DOI编号)、num.versions(版本数)、num.pages(页数估计)、num.figures(图表数估计)
orcid_ids_to_articles.json(JSON格式)
- 内容:ORCID ID与arXiv文章ID的关联三元组,包含certainty(确定性)、predicate(关系谓词is_author_of)、subject(ORCID信息)、object(arXiv文章信息)
internal-citations.json(JSON格式)
- 内容:arXiv内部引用网络字典,键为引用文章ID,值为被引用文章ID列表
数据来源
Zenodo数据集“Dataset for: Quantifying the rise and fall of scientific fields (Version v2)”
适用场景
- 科学领域发展趋势分析: 利用rescaled时间变量量化175个科学领域的兴衰阶段与动态变化
- 学术引用网络研究: 通过内部引用数据构建网络,计算Disruptive Index等文献计量指标
- 作者学术轨迹追踪: 基于ORCID与文章的关联数据,分析作者跨领域的研究动态
- 科研产出特征分析: 结合文章元数据(版本数、页数、图表数等)研究学术产出的结构特征
- 跨学科研究热点识别: 通过领域标签与时间维度,识别不同学科领域的交叉热点与演化路径