WebKb_4UNI_Based_网页分类数据集

关注者: 0

资源积分: 0

分类

公开数据

公开数据

授权

没有提供授权

数据集

WebKb_4UNI_Based_网页分类数据集

数据集概述

本数据集由卡内基梅隆大学文本学习小组收集，包含来自康奈尔、德克萨斯、华盛顿、威斯康星4所大学计算机科学系的网页及其他大学的杂项网页，总计8282页。网页被分为学生、教职员工、工作人员、部门、课程、项目和其他7个类别，用于文本分类任务。

文件详解

文本文件
文件名称：texts.txt、texts_2.txt
文件格式：TXT
字段映射介绍：每行对应一个网页文档的文本内容
标签文件
文件名称：score.txt
文件格式：TXT
字段映射介绍：每行对应texts.txt中文档的类别标签，索引与texts.txt关联
交叉验证文件
文件名称：split_5.pkl、split_10.pkl、split_5_with_val.pkl、split_10_with_val.pkl
文件格式：PKL
字段映射介绍：pandas DataFrame格式的k折交叉验证划分文件
分割文件
文件名称：split_5.csv、split_10.csv
文件格式：CSV
字段映射介绍：交叉验证划分的CSV格式文件
压缩文件
文件名称：webkb.zip
文件格式：ZIP
字段映射介绍：数据集压缩包

数据来源

卡内基梅隆大学（CMU）文本学习小组，数据地址：http://www.cs.cmu.edu/afs/cs/project/theo-20/www/data

适用场景

文本分类研究：用于训练和评估网页分类模型，识别学生、教职员工等7类网页
NLP模型训练：作为自然语言处理任务的训练数据，提升文本理解能力
交叉验证方法验证：利用k折交叉验证文件测试模型泛化能力
网页内容分析：研究大学计算机科学系网页的内容特征与分类规律

数据与资源

该数据集没有数据

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	0.0 MiB
最后更新	2026年2月9日
创建于	2026年2月9日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？