TabbyXL规则驱动表格关系化转换完整实验数据

数据集概述

本数据集用于评估TabbyXL系统,该系统基于规则将任意格式的电子表格数据转换为关系表。数据基于Troy_200数据集,包含从10个政府统计网站收集的200个任意格式表格,以CSV文件形式存储。数据集包含带有样式特征(字体、对齐和缩进)的原始Excel表格、TabbyXL转换结果、性能评估的真值数据以及运行日志文件。

文件详解

  • 原始表格数据
  • 文件名称:data/TangoDataset.xlsx
  • 文件格式:XLSX
  • 字段映射介绍:包含200个带有样式特征的原始表格,每个表格位于独立的工作表中,通过$START和$END标签标识位置。
  • 转换规则文件
  • 文件名称:data/rules.dslr
  • 文件格式:DSLR
  • 字段映射介绍:TabbyXL系统用于自动转换表格的规则集。
  • 转换结果数据
  • 文件名称:data/results/目录下文件
  • 文件格式:未明确指定(通常为结构化数据格式)
  • 字段映射介绍:包含ENTRIES(值、来源、关联标签集合)和LABELS(值、来源、父引用)两个记录集。
  • 真值数据
  • 文件名称:data/gt/目录下文件
  • 文件格式:未明确指定
  • 字段映射介绍:用于TabbyXL在表格分析的角色和结构阶段进行自动化性能评估的基准数据。
  • 日志文件
  • 文件名称:results.logeval.log
  • 文件格式:LOG
  • 字段映射介绍:results.log记录系统运行结果,eval.log记录性能评估结果。

数据来源

论文"Rule-Based Canonicalization of Arbitrary Tables in Spreadsheets"及Troy_200数据集

适用场景

  • 表格数据转换技术评估: 用于评估规则驱动的电子表格到关系表转换系统的准确性和效率。
  • 文档分析与识别研究: 支持表格结构识别、数据提取和信息检索相关算法的开发与测试。
  • 数据规范化处理: 为异构统计表格的标准化和数据库导入提供技术验证基础。
  • 规则引擎应用研究: 探索基于规则的表格数据处理方法在实际应用中的效果和局限性。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 4.38 MiB
最后更新 2025年11月28日
创建于 2025年11月28日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。