数据集

TheyBuyForYou_DocSim_Based文档相似度众包标注数据

数据集概述

本数据集包含通过三种众包任务变体收集的文档对相似度判断结果，每种任务变体采用不同的标注方式（李克特量表、量级估计、排序），并记录了标注者的相似度评分、置信度及理由。数据集包含原始标注JSON文件及三种任务变体对应的处理后CSV文件，总计5个文件，用于文档相似度评估研究。

文件详解

说明文档
文件名称：CrowdResults_README.md
文件格式：MD
字段映射介绍：描述CrowdResults.json文件的内容结构、数据属性及MongoDB聚合脚本说明。
原始标注数据
文件名称：CrowdResults.json
文件格式：JSON
字段映射介绍：包含所有众包任务批次的原始结果，共813个文档，每个文档对应一个HIT（任务），记录任务ID、标注者响应等属性。
李克特量表结果
文件名称：final_scores_likert.csv
文件格式：CSV
字段映射介绍：包含pair_id（文档对唯一ID）、similarity_alg（自动化算法相似度值）、relation（文档对关系类型）、similarity_crowd_simple_maj（众包简单多数相似度评分）、similarity_crowd_simple_mean（众包均值相似度评分）、similarity_crowd_simple_median（众包中位数相似度评分）。
量级估计结果
文件名称：final_scores_magnitude.csv
文件格式：CSV
字段映射介绍：包含pair_id（文档对唯一ID）、similarity_alg（自动化算法相似度值）、relation（文档对关系类型）、scaled_similarity_worker（基于标注者行为的缩放相似度）、scaled_similarity_worker_docset（基于标注者行为和文档集的缩放相似度）。
排序任务结果
文件名称：final_scores_ranking.csv
文件格式：CSV
字段映射介绍：包含pair_id（文档对唯一ID）、similarity_alg（自动化算法相似度值）、relation（文档对关系类型）、mean_similarity（众包均值相似度排名）。

数据来源

TheyBuyForYou项目

适用场景

文档相似度评估方法对比: 对比李克特量表、量级估计、排序三种标注方式的效果差异及可靠性。
众包标注质量控制研究: 分析黄金标准对标注者响应的筛选作用，优化众包任务设计。
自动化相似度算法验证: 利用众包标注结果验证自动化文档相似度算法的准确性。
自然语言处理模型训练: 作为监督数据训练或优化文档相似度计算模型。

数据与资源

4298976.zipZIP
23.46 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	23.46 MiB
最后更新	2026年1月21日
创建于	2026年1月21日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

TheyBuyForYou_DocSim_Based文档相似度众包标注数据

数据集概述

文件详解

数据来源

适用场景

数据与资源

附加信息

注册成功！