数据集概述
本数据集是论文《Robust Table Integration in Data Lakes: From Integrable Set Discovery to Multi-Tuple Conflict Resolution》的基准数据,包含三个压缩文件,用于支持数据湖表集成相关方法的评估,涉及可集成集发现、多元组冲突解决等任务的测试场景。
文件详解
- SE-heavy Noises.zip
- 文件格式:ZIP
- 内容说明:包含SE-heavy噪声类型的表集成基准数据,用于模拟特定噪声场景下的数据集成任务
- balanced noises.zip
- 文件格式:ZIP
- 内容说明:包含平衡噪声类型的表集成基准数据,用于模拟噪声分布均衡场景下的数据集成任务
- TE-heavy noises.zip
- 文件格式:ZIP
- 内容说明:包含TE-heavy噪声类型的表集成基准数据,用于模拟特定噪声场景下的数据集成任务
数据来源
论文《Robust Table Integration in Data Lakes: From Integrable Set Discovery to Multi-Tuple Conflict Resolution》
适用场景
- 数据湖表集成方法评估:用于测试和验证数据湖环境下表集成算法的鲁棒性和有效性
- 可集成集发现研究:支持可集成数据集自动发现相关算法的性能测试
- 多元组冲突解决研究:为多源数据元组冲突解决方法提供基准测试场景
- 噪声场景下数据集成研究:模拟不同噪声分布场景,分析噪声对表集成效果的影响机制