数据集概述
该数据集为2022年Touché会议“比较问题的论点检索”任务的专用数据,包含问题主题、检索段落、评估结果等文件,覆盖相关性、立场、质量三类评估维度,支持论点检索算法的开发与评测。
文件详解
该数据集包含15个文件,按类型分为以下几类:
- 问题与段落数据文件:
- topics-task2-2022.zip:压缩文件,包含任务相关的比较问题主题数据
- touche-task2-passages-version-002.jsonl.gz:压缩JSONL文件,基础段落数据集
- touche-task2-passages-version-002-expanded-with-doc-t5-query.jsonl.gz:压缩JSONL文件,扩展后的段落数据集
- marco_comp_all_fields.tsv:TSV文件,包含比较问题、查询ID、段落等字段,如question(问题)、query_id(查询ID)、passages(段落文本)
- 评估标准文件(.qrels格式):
- touche-task2-2022-relevance.qrels:相关性评估标准文件
- touche-task2-2022-stance.qrels:立场评估标准文件
- touche-task2-2022-quality.qrels:质量评估标准文件
- 结果文件:
- 结果CSV文件:task2_relevance_results_full.csv(相关性结果,含Team、Tag、Topic、nDCG@5等字段)、task2_stance_results_full.csv(立场结果)、task2_quality_results_full.csv(质量结果)
- 结果HTML文件:task2_relevance_results_all.html(相关性结果网页)、task2_stance_results_all.html(立场结果网页)、task2_quality_results_all.html(质量结果网页)
- 算法提交结果压缩包:
- touche2022-task2-runs.zip:压缩文件,包含各团队提交的算法运行结果
适用场景
- 信息检索研究:开发与评测比较问题的论点检索算法
- 自然语言处理:研究比较类问题的文本理解与论点抽取技术
- 算法评估:基于相关性、立场、质量指标评估检索模型性能
- 问答系统优化:提升比较类问题的答案论点支撑能力