InfoTabS_Based_表格推理可信性证据提取标注数据集

数据集概述

本数据集为论文配套资源,包含InfoTabS数据集训练集的证据行标注结果、测试集标注结果(源自Gupta et al. 2022)、标注模板及统计信息。标注覆盖16248个训练集表格-假设对,由90名标注者完成81282条标注,多数投票一致性F1值达89.49%,支持可信表格推理的证据提取研究。

文件详解

  • 压缩包文件:annotation.zip
  • 文件格式:ZIP
  • 包含目录及文件:
  • annotation_batches:标注批次文件,含batches_test(测试集CSV结果)、batches_train(训练集CSV结果)、README.md(批次说明)、main_template_row_relevant.html(mTurk标注模板)、annotation_stats.md(标注统计)、release_mturk(发布批次CSV)
  • results_test:测试集预处理CSV及一致性统计文件
  • results_train:训练集预处理CSV文件
  • scripts:生成预处理CSV及统计的脚本文件
  • src:脚本依赖的Python源文件

数据来源

论文“Right for the Right Reason: Evidence Extraction for Trustworthy Tabular Reasoning”

适用场景

  • 可信表格推理模型评估:用于验证模型是否基于正确证据行进行推理,提升推理可信度
  • 标注质量分析:研究众包标注的一致性模式及长尾分布特征,优化标注方案
  • 表格证据提取任务建模:基于标注数据构建或训练证据行识别模型
  • 自然语言处理数据集扩展:为InfoTabS数据集补充训练集标注,支持相关任务研究
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 22.19 MiB
最后更新 2026年1月29日
创建于 2026年1月29日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。