TREC问题分类数据集

TREC问题分类数据集 数据来源:互联网公开数据 标签:问题分类,机器学习,自然语言处理,信息检索,数据集,文本分析,学术研究 数据概述: TREC问题分类数据集包含了5500个标记的训练问题和500个测试问题。该数据集拥有6个粗分类标签和50个细分类标签,每个句子的平均长度为10,词汇量为8700。数据来源于四个不同的源:4,500个由USC发布的英文问题、500个手动构建的稀有类别问题、894个TREC 8和TREC 9的问题,以及500个TREC 10的问题作为测试集。所有问题均为人工标注。 数据用途概述: 该数据集适用于开发和测试新的问题分类模型,研究人类和机器之间的问题分类能力差异,以及研究问题分类随时间的演变(例如标签使用的变化、句子长度的变化等)。 举例: - 开发和测试新的问题分类模型 - 研究人类和机器在问题分类上的差异 - 研究问题分类随时间的变化 训练集文件名:train.csv 测试集文件名:test.csv 列名及描述: - label-coarse:问题的粗分类标签(字符串) - label-fine:问题的细分类标签(字符串) - text:问题的文本(字符串)

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.12 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。