科研论文多标签分类数据集-论文标题与摘要-20972篇论文-adefiqri12

科研论文多标签分类数据集-论文标题与摘要-20972篇论文-adefiqri12 数据来源:互联网公开数据 标签:科研论文,多标签分类,文本数据,机器学习,自然语言处理,计算机科学,物理学,数学,统计学,生物学,金融学,学术研究 数据概述: 本数据集旨在用于科研论文的多标签分类任务,主要基于论文的标题和摘要内容进行标签预测。数据集包含20972篇论文,每篇论文都可能被标记为多个类别。数据集包含6个不同的标签:计算机科学、物理学、数学、统计学、定量生物学和量化金融学。

数据集中,标签以列的形式呈现,每个标签列中,数值1表示该论文属于该标签类别,数值0表示不属于。每篇论文可以同时拥有多个标签。数据来自Analytics Vidhya Hackathon,为已清洗版本,仅包含训练数据集。

数据用途概述: 该数据集适用于多种研究和实践场景,包括但不限于:多标签文本分类模型的训练与评估,例如使用深度学习模型(如Transformer、BERT等)进行论文分类;探索不同特征工程方法对分类效果的影响,如词袋模型、TF-IDF、word embeddings等;研究不同标签之间的关联关系,进行跨学科研究;为学术论文推荐系统提供数据支持;进行自然语言处理和机器学习相关的教学与实践。

packageimg

数据与资源

附加信息

字段
版本 1.0
最后更新 四月 23, 2025, 19:40 (UTC)
创建于 四月 23, 2025, 19:39 (UTC)
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。