HDLTex_WOS_层次化学术文献分类完整数据集2017

数据集概述

本数据集包含三个独立的Web of Science(WOS)学术文献子集(WOS-11967、WOS-46985、WOS-5736),专门用于层次化文本分类研究。每个子集包含论文摘要文本序列(X)及其对应的层次化分类标签(Y、YL1、YL2),涵盖计算机科学、电气工程、心理学等7个主要学科领域及其134个子领域。数据集为基于深度学习的文档分类算法(如HDLTex)提供训练和评估基础。

文件详解

  • WOS-11967子集
  • 文件组成:X.txt(文本序列)、Y.txt(目标标签)、YL1.txt(一级父标签)、YL2.txt(二级子标签)
  • 文件格式:TXT
  • 字段映射介绍:包含11,967篇文档,涵盖35个类别(7个父类别)
  • WOS-46985子集
  • 文件组成:X.txt(文本序列)、Y.txt(目标标签)、YL1.txt(一级父标签)、YL2.txt(二级子标签)
  • 文件格式:TXT
  • 字段映射介绍:包含46,985篇文档,涵盖134个类别(7个父类别),包含领域、区域、关键词等元数据
  • WOS-5736子集
  • 文件组成:X.txt(文本序列)、Y.txt(目标标签)、YL1.txt(一级父标签)、YL2.txt(二级子标签)
  • 文件格式:TXT
  • 字段映射介绍:包含5,736篇文档,涵盖11个类别(3个父类别)
  • 元数据文件
  • 文件格式:TXT
  • 字段映射介绍:包含Y1、Y2、领域、区域、关键词、摘要等完整元数据信息

数据来源

论文"HDLTex: Hierarchical Deep Learning for Text Classification"(作者:Kamran Kowsari等)

适用场景

  • 层次化文本分类研究:用于开发和评估基于深度学习的多层级文档自动分类算法
  • 学术文献挖掘:分析不同学科领域的研究热点分布和文献分类特征
  • 自然语言处理模型训练:为文本分类、主题建模等NLP任务提供标注数据集
  • 跨学科研究分析:通过134个子领域分类,研究学科交叉趋势和知识结构
  • 教育技术应用:支持学术资源自动归类、学科推荐系统等教育科技应用开发
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 57.45 MiB
最后更新 2025年11月29日
创建于 2025年11月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。