数据集概述
本数据集由卡内基梅隆大学文本学习小组收集,包含来自康奈尔、德克萨斯、华盛顿、威斯康星4所大学计算机科学系的网页及其他大学的杂项网页,总计8282页。网页被分为学生、教职员工、工作人员、部门、课程、项目和其他7个类别,用于文本分类任务。
文件详解
- 文本文件
- 文件名称:texts.txt、texts_2.txt
- 文件格式:TXT
- 字段映射介绍:每行对应一个网页文档的文本内容
- 标签文件
- 文件名称:score.txt
- 文件格式:TXT
- 字段映射介绍:每行对应texts.txt中文档的类别标签,索引与texts.txt关联
- 交叉验证文件
- 文件名称:split_5.pkl、split_10.pkl、split_5_with_val.pkl、split_10_with_val.pkl
- 文件格式:PKL
- 字段映射介绍:pandas DataFrame格式的k折交叉验证划分文件
- 分割文件
- 文件名称:split_5.csv、split_10.csv
- 文件格式:CSV
- 字段映射介绍:交叉验证划分的CSV格式文件
- 压缩文件
- 文件名称:webkb.zip
- 文件格式:ZIP
- 字段映射介绍:数据集压缩包
数据来源
卡内基梅隆大学(CMU)文本学习小组,数据地址:http://www.cs.cmu.edu/afs/cs/project/theo-20/www/data
适用场景
- 文本分类研究:用于训练和评估网页分类模型,识别学生、教职员工等7类网页
- NLP模型训练:作为自然语言处理任务的训练数据,提升文本理解能力
- 交叉验证方法验证:利用k折交叉验证文件测试模型泛化能力
- 网页内容分析:研究大学计算机科学系网页的内容特征与分类规律