数据集概述
本数据集是FrameNet语义框架消歧的众包真实语料库,包含来自FrameNet v.1.7的433个句子-词对的标注数据,每个句子-词对由15名众包工作者标注,数据通过Amazon Mechanical Turk收集,并使用CrowdTruth指标处理标注歧义,可用于语义框架消歧研究。
文件详解
- 文件名称:
CrowdTruth/FrameDisambiguation-v.1.0.zip
- 文件格式:ZIP
- 字段映射介绍:压缩包内包含众包标注数据,分为原始数据(
data/input/)和经CrowdTruth指标聚合的处理后数据(data/output/),以及数据处理用Jupyter Notebook文件CrowdTruth metrics.ipynb。
数据来源
论文“Capturing and Interpreting Ambiguity in Crowdsourcing Frame Disambiguation”
适用场景
- 语义框架消歧研究:用于训练和评估语义框架消歧模型,分析标注歧义对模型性能的影响。
- 众包标注质量评估:研究CrowdTruth指标在处理标注歧义中的应用效果。
- 自然语言处理模型训练:为FrameNet语义框架消歧任务提供标注数据支持。
- 众包数据处理方法研究:探索众包数据聚合方法在语义标注任务中的应用。