数据集概述
本数据集为2021年SCAI-QReCC对话式问答共享任务的结果数据,基于原始QReCC数据集处理而成,包含任务数据集、答案合理性标注数据及相关压缩文件,支持对话式问答任务的研究与评估。
文件详解
- 任务数据集与标注文件:
- turns.zip:压缩文件,包含修正对话轮次编号的数据集拆分文件,如
scai-qrecc21-training-turns.json(QReCC训练集适配版本,字段重命名为Truth_rewrite、Truth_passages、Truth_answer)
- scai_qrecc.json:JSON格式文件,任务核心数据文件
- answer_plausibility_annotations.csv:CSV格式,答案合理性标注原始数据,含WorkTimeInSeconds、Input.id、Input.question、Input.predicted、Approve、Annotation等字段
- answer_plausibility_annotations_clean_with_disagreements.csv:CSV格式,保留标注分歧的清洗后答案合理性数据
- answer_plausibility_annotations_clean_without_disagreements.csv:CSV格式,移除标注分歧的清洗后答案合理性数据
- 其他压缩文件:
- questions.zip、questions-rewritten.zip、ground-truth.zip、scai-qrecc-21-valid-runs.zip:共4个压缩文件,包含问题、重写问题、真实标签及验证运行数据
- 说明文档:
- README.txt:TXT格式,数据集创建背景、文件组成及来源说明
适用场景
- 对话式问答研究:用于对话式问题重写、答案生成与验证等任务的模型训练与评估
- 标注质量分析:通过含分歧/无分歧的标注数据,研究问答系统答案合理性的标注一致性问题
- 共享任务复现:支持SCAI QReCC'21共享任务的结果复现与方法对比
- 问答系统优化:基于对话轮次数据与真实标签,优化多轮对话场景下的问题理解与答案生成能力