数据集概述
本数据集用于评估TabbyXL系统,该系统基于规则将任意格式的电子表格数据转换为关系表。数据基于Troy_200数据集,包含从10个政府统计网站收集的200个任意格式表格,以CSV文件形式存储。数据集包含带有样式特征(字体、对齐和缩进)的原始Excel表格、TabbyXL转换结果、性能评估的真值数据以及运行日志文件。
文件详解
- 原始表格数据
- 文件名称:
data/TangoDataset.xlsx
- 文件格式:XLSX
- 字段映射介绍:包含200个带有样式特征的原始表格,每个表格位于独立的工作表中,通过$START和$END标签标识位置。
- 转换规则文件
- 文件名称:
data/rules.dslr
- 文件格式:DSLR
- 字段映射介绍:TabbyXL系统用于自动转换表格的规则集。
- 转换结果数据
- 文件名称:
data/results/目录下文件
- 文件格式:未明确指定(通常为结构化数据格式)
- 字段映射介绍:包含ENTRIES(值、来源、关联标签集合)和LABELS(值、来源、父引用)两个记录集。
- 真值数据
- 文件名称:
data/gt/目录下文件
- 文件格式:未明确指定
- 字段映射介绍:用于TabbyXL在表格分析的角色和结构阶段进行自动化性能评估的基准数据。
- 日志文件
- 文件名称:
results.log,eval.log
- 文件格式:LOG
- 字段映射介绍:
results.log记录系统运行结果,eval.log记录性能评估结果。
数据来源
论文"Rule-Based Canonicalization of Arbitrary Tables in Spreadsheets"及Troy_200数据集
适用场景
- 表格数据转换技术评估: 用于评估规则驱动的电子表格到关系表转换系统的准确性和效率。
- 文档分析与识别研究: 支持表格结构识别、数据提取和信息检索相关算法的开发与测试。
- 数据规范化处理: 为异构统计表格的标准化和数据库导入提供技术验证基础。
- 规则引擎应用研究: 探索基于规则的表格数据处理方法在实际应用中的效果和局限性。