数据集概述
本数据集包含通过三种众包任务变体收集的文档对相似度判断结果,每种任务变体采用不同的标注方式(李克特量表、量级估计、排序),并记录了标注者的相似度评分、置信度及理由。数据集包含原始标注JSON文件及三种任务变体对应的处理后CSV文件,总计5个文件,用于文档相似度评估研究。
文件详解
- 说明文档
- 文件名称:CrowdResults_README.md
- 文件格式:MD
- 字段映射介绍:描述CrowdResults.json文件的内容结构、数据属性及MongoDB聚合脚本说明。
- 原始标注数据
- 文件名称:CrowdResults.json
- 文件格式:JSON
- 字段映射介绍:包含所有众包任务批次的原始结果,共813个文档,每个文档对应一个HIT(任务),记录任务ID、标注者响应等属性。
- 李克特量表结果
- 文件名称:final_scores_likert.csv
- 文件格式:CSV
- 字段映射介绍:包含pair_id(文档对唯一ID)、similarity_alg(自动化算法相似度值)、relation(文档对关系类型)、similarity_crowd_simple_maj(众包简单多数相似度评分)、similarity_crowd_simple_mean(众包均值相似度评分)、similarity_crowd_simple_median(众包中位数相似度评分)。
- 量级估计结果
- 文件名称:final_scores_magnitude.csv
- 文件格式:CSV
- 字段映射介绍:包含pair_id(文档对唯一ID)、similarity_alg(自动化算法相似度值)、relation(文档对关系类型)、scaled_similarity_worker(基于标注者行为的缩放相似度)、scaled_similarity_worker_docset(基于标注者行为和文档集的缩放相似度)。
- 排序任务结果
- 文件名称:final_scores_ranking.csv
- 文件格式:CSV
- 字段映射介绍:包含pair_id(文档对唯一ID)、similarity_alg(自动化算法相似度值)、relation(文档对关系类型)、mean_similarity(众包均值相似度排名)。
数据来源
TheyBuyForYou项目
适用场景
- 文档相似度评估方法对比: 对比李克特量表、量级估计、排序三种标注方式的效果差异及可靠性。
- 众包标注质量控制研究: 分析黄金标准对标注者响应的筛选作用,优化众包任务设计。
- 自动化相似度算法验证: 利用众包标注结果验证自动化文档相似度算法的准确性。
- 自然语言处理模型训练: 作为监督数据训练或优化文档相似度计算模型。