arXiv论文标题摘要与标签数据集

arXiv论文标题摘要与标签数据集 数据来源:互联网公开数据 标签:arXiv,科研论文,学术研究,机器学习,数据分类,文本分析,教育

数据概述: 本数据集受到了arXiv论文摘要数据集的启发,可以视为其逻辑扩展。数据集包含536,914篇研究论文的标题和摘要,适用于多标签分类任务。数据通过爬取arXiv官方元数据获取,而非使用原始的arXiv API。相比原数据集的38,979篇论文,本数据集增加了至536,914篇,并去除了重复项和非arXiv类别的标签(如ACM、MSC分类),仅保留arXiv分类标签。

数据集分为两个文件,分别为arxiv_data.csv和arxiv_data_grouped.csv。arxiv_data.csv包含155个arXiv标签作为目标类别;arxiv_data_grouped.csv则将这155个标签根据arXiv分类学(https://arxiv.org/category_taxonomy)分为8个类别。此外,数据集被进一步分为训练集和测试集,分别存储在train和test文件夹中。

数据用途概述: 该数据集适用于学术研究、机器学习模型训练、文本分类任务以及教育场景。研究人员可以利用该数据集进行多标签分类模型的训练与评估;教育机构可以将其用于数据科学和机器学习课程的教学。数据集还适合用于学术论文分析、研究趋势探索等场景,帮助学者了解各个领域的最新研究成果和研究方向。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 849.54 MiB
最后更新 2025年6月4日
创建于 2025年6月4日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。