KWX_Based_arXiv学术文章关键词数据集

数据集概述

本数据集基于arXiv Dataset构建,核心内容为补充了关键词字段的学术文章数据,包含CSV和JSON两种格式的文件,总计2个文件,可用于学术文献的关键词分析与检索支持。

文件详解

  • CSV文件
  • 文件名称:data.csv
  • 文件格式:CSV
  • 字段映射介绍:包含id、submitter、authors、title、comments、journal-ref、doi、report-no、categories、license、abstract、versions、update_date、authors_parsed、keywords等字段
  • JSON文件
  • 文件名称:data.json
  • 文件格式:JSON
  • 字段映射介绍:与data.csv字段对应,包含学术文章的基本信息及补充的关键词字段

数据来源

arXiv Dataset

适用场景

  • 学术文献关键词检索优化:利用补充的关键词字段提升arXiv论文的检索精准度
  • 学术主题趋势分析:基于关键词分布研究特定领域的研究热点与发展趋势
  • 文献分类模型训练:为学术文章自动分类模型提供带关键词标注的训练数据
  • 科研合作网络分析:结合作者与关键词数据探究研究团队的主题聚焦方向
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 84.37 MiB
最后更新 2026年1月31日
创建于 2026年1月31日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。