Robust_Table_Integration_Based数据湖表集成基准数据集

数据集概述

本数据集是论文《Robust Table Integration in Data Lakes: From Integrable Set Discovery to Multi-Tuple Conflict Resolution》的基准数据,包含三个压缩文件,用于支持数据湖表集成相关方法的评估,涉及可集成集发现、多元组冲突解决等任务的测试场景。

文件详解

  • SE-heavy Noises.zip
  • 文件格式:ZIP
  • 内容说明:包含SE-heavy噪声类型的表集成基准数据,用于模拟特定噪声场景下的数据集成任务
  • balanced noises.zip
  • 文件格式:ZIP
  • 内容说明:包含平衡噪声类型的表集成基准数据,用于模拟噪声分布均衡场景下的数据集成任务
  • TE-heavy noises.zip
  • 文件格式:ZIP
  • 内容说明:包含TE-heavy噪声类型的表集成基准数据,用于模拟特定噪声场景下的数据集成任务

数据来源

论文《Robust Table Integration in Data Lakes: From Integrable Set Discovery to Multi-Tuple Conflict Resolution》

适用场景

  • 数据湖表集成方法评估:用于测试和验证数据湖环境下表集成算法的鲁棒性和有效性
  • 可集成集发现研究:支持可集成数据集自动发现相关算法的性能测试
  • 多元组冲突解决研究:为多源数据元组冲突解决方法提供基准测试场景
  • 噪声场景下数据集成研究:模拟不同噪声分布场景,分析噪声对表集成效果的影响机制
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 94.86 MiB
最后更新 2026年1月15日
创建于 2026年1月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。