皮埃罗格数据集-英语短文本主题相关性评估数据集

皮埃罗格数据集-英语短文本主题相关性评估数据集 数据来源:互联网公开数据 标签:文本,主题,相关性,评测,机器学习,教育,英语,自然语言处理,ChatGPT,GPT-4 数据概述: 皮埃罗格数据集是一个小型、开放许可的、机器生成的数据集,包含十五篇短篇英语文本,涵盖五个主题,并附带相关性判断(qrels),专为教育目的设计。

主题包括:宇宙、自然、音乐、科技、时尚。

数据集被划分为训练集(10篇文档,375个qrels)和测试集(5篇文档,150个qrels)。

文本由ChatGPT 3.5生成。查询、qrels和类比由GPT-4生成。词语提供了基于Google News数据集的Word2Vec嵌入。 数据用途概述: 该数据集主要用于教育和研究目的,尤其适用于以下场景: 1. 文本相关性评估: 训练和测试文本相关性模型,例如信息检索系统。 2. 自然语言处理教学: 用于教授和实践文本分析、信息检索、语义理解等自然语言处理技术。 3. 机器学习入门: 作为小型数据集,便于学生和研究人员进行机器学习模型的构建和评估。 4. 数据集探索: 探索不同主题文本之间的关系,以及评估不同主题的文本质量。 5. 模型训练: 可以用来训练小型文本分类模型或相关性模型。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.6 MiB
最后更新 2025年4月14日
创建于 2025年4月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。