arXiv计算机科学论文多标签分类数据集-约20万篇-v1
数据来源:互联网公开数据
标签:arXiv,计算机科学,论文,多标签分类,文本分类,自然语言处理,机器学习,主题建模,信息检索
数据概述:
arXiv计算机科学论文多标签分类数据集是一个全面的计算机科学领域研究论文集合,旨在用于多标签分类任务。该数据集涵盖了计算机科学领域内的各种主题,包含大约20万篇研究论文。数据集包含以下列:
论文ID:每篇研究论文的唯一标识符。
标题:研究论文的标题。
摘要:研究论文的简短摘要。
年份:研究论文的发表年份。
主要类别:研究论文的主要类别,代表主要主题或研究重点。
类别:与研究论文相关的其他类别或子主题。
该数据集非常适合用于文本分类、主题建模、信息检索和其他自然语言处理(NLP)任务。研究人员和从业者可以利用此数据集开发和评估机器学习模型,用于对各种计算机科学主题进行多标签分类。
数据用途概述:
该数据集适用于文本分类、主题建模、信息检索等自然语言处理任务。研究人员可以使用此数据集开发和评估机器学习模型,用于计算机科学领域的各种主题的多标签分类。 它可以用于学术研究、教育目的,以及开发用于论文推荐、主题分析等应用的系统。