SCAI_QReCC2021对话式问答共享任务结果数据集

数据集概述

本数据集为2021年SCAI-QReCC对话式问答共享任务的结果数据,基于原始QReCC数据集处理而成,包含任务数据集、答案合理性标注数据及相关压缩文件,支持对话式问答任务的研究与评估。

文件详解

  • 任务数据集与标注文件:
  • turns.zip:压缩文件,包含修正对话轮次编号的数据集拆分文件,如scai-qrecc21-training-turns.json(QReCC训练集适配版本,字段重命名为Truth_rewrite、Truth_passages、Truth_answer)
  • scai_qrecc.json:JSON格式文件,任务核心数据文件
  • answer_plausibility_annotations.csv:CSV格式,答案合理性标注原始数据,含WorkTimeInSeconds、Input.id、Input.question、Input.predicted、Approve、Annotation等字段
  • answer_plausibility_annotations_clean_with_disagreements.csv:CSV格式,保留标注分歧的清洗后答案合理性数据
  • answer_plausibility_annotations_clean_without_disagreements.csv:CSV格式,移除标注分歧的清洗后答案合理性数据
  • 其他压缩文件:
  • questions.zip、questions-rewritten.zip、ground-truth.zip、scai-qrecc-21-valid-runs.zip:共4个压缩文件,包含问题、重写问题、真实标签及验证运行数据
  • 说明文档:
  • README.txt:TXT格式,数据集创建背景、文件组成及来源说明

适用场景

  • 对话式问答研究:用于对话式问题重写、答案生成与验证等任务的模型训练与评估
  • 标注质量分析:通过含分歧/无分歧的标注数据,研究问答系统答案合理性的标注一致性问题
  • 共享任务复现:支持SCAI QReCC'21共享任务的结果复现与方法对比
  • 问答系统优化:基于对话轮次数据与真实标签,优化多轮对话场景下的问题理解与答案生成能力
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 233.88 MiB
最后更新 2025年12月4日
创建于 2025年12月4日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。