WebKb_4UNI_Based_网页分类数据集

数据集概述

本数据集由卡内基梅隆大学文本学习小组收集,包含来自康奈尔、德克萨斯、华盛顿、威斯康星4所大学计算机科学系的网页及其他大学的杂项网页,总计8282页。网页被分为学生、教职员工、工作人员、部门、课程、项目和其他7个类别,用于文本分类任务。

文件详解

  • 文本文件
  • 文件名称:texts.txt、texts_2.txt
  • 文件格式:TXT
  • 字段映射介绍:每行对应一个网页文档的文本内容
  • 标签文件
  • 文件名称:score.txt
  • 文件格式:TXT
  • 字段映射介绍:每行对应texts.txt中文档的类别标签,索引与texts.txt关联
  • 交叉验证文件
  • 文件名称:split_5.pkl、split_10.pkl、split_5_with_val.pkl、split_10_with_val.pkl
  • 文件格式:PKL
  • 字段映射介绍:pandas DataFrame格式的k折交叉验证划分文件
  • 分割文件
  • 文件名称:split_5.csv、split_10.csv
  • 文件格式:CSV
  • 字段映射介绍:交叉验证划分的CSV格式文件
  • 压缩文件
  • 文件名称:webkb.zip
  • 文件格式:ZIP
  • 字段映射介绍:数据集压缩包

数据来源

卡内基梅隆大学(CMU)文本学习小组,数据地址:http://www.cs.cmu.edu/afs/cs/project/theo-20/www/data

适用场景

  • 文本分类研究:用于训练和评估网页分类模型,识别学生、教职员工等7类网页
  • NLP模型训练:作为自然语言处理任务的训练数据,提升文本理解能力
  • 交叉验证方法验证:利用k折交叉验证文件测试模型泛化能力
  • 网页内容分析:研究大学计算机科学系网页的内容特征与分类规律
packageimg

数据与资源

该数据集没有数据

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.0 MiB
最后更新 2026年2月9日
创建于 2026年2月9日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。