数据湖基准测试表格联合搜索完整数据集

数据集概述

本数据集是一个数据湖基准测试集合,主要用于表格联合搜索研究。数据来源于多个公开数据集仓库,包括Mendeley数据存储库、GitHub代码库和UCI机器学习仓库。数据集以ZIP压缩包形式提供,包含从不同领域收集的表格数据,适用于数据集成和表格匹配算法的性能评估。

文件详解

  • 数据湖压缩包
  • 文件名称:data.zip
  • 文件格式:ZIP
  • 字段映射介绍:压缩包内包含从多个来源收集的表格数据文件,具体文件结构和字段信息需解压后查看

数据来源

适用场景

  • 表格联合搜索算法评估:用于测试和比较不同表格匹配和联合搜索算法的性能
  • 数据湖管理研究:研究数据湖中异构表格数据的组织、索引和查询优化
  • 数据集成技术开发:支持跨领域表格数据的自动发现和集成方法研究
  • 基准测试构建:为数据管理和数据发现领域提供标准化的测试基准
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 995.53 MiB
最后更新 2025年11月28日
创建于 2025年11月28日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。