数据集

TREC问题分类数据集

TREC问题分类数据集数据来源：互联网公开数据标签：问题分类,机器学习,自然语言处理,信息检索,数据集,文本分析,学术研究数据概述： TREC问题分类数据集包含了5500个标记的训练问题和500个测试问题。该数据集拥有6个粗分类标签和50个细分类标签，每个句子的平均长度为10，词汇量为8700。数据来源于四个不同的源：4,500个由USC发布的英文问题、500个手动构建的稀有类别问题、894个TREC 8和TREC 9的问题，以及500个TREC 10的问题作为测试集。所有问题均为人工标注。数据用途概述：该数据集适用于开发和测试新的问题分类模型，研究人类和机器之间的问题分类能力差异，以及研究问题分类随时间的演变（例如标签使用的变化、句子长度的变化等）。举例： - 开发和测试新的问题分类模型 - 研究人类和机器在问题分类上的差异 - 研究问题分类随时间的变化训练集文件名：train.csv 测试集文件名：test.csv 列名及描述： - label-coarse：问题的粗分类标签（字符串） - label-fine：问题的细分类标签（字符串） - text：问题的文本（字符串）

数据与资源

TREC问题分类数据集.zipZIP
0.12 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	0.12 MiB
最后更新	2025年4月15日
创建于	2025年4月15日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

TREC问题分类数据集

数据与资源

附加信息

注册成功！