监督式匹配与实体解析的清洗数据集

数据集概述

本数据集包含13个已确立的基准数据集和5个新基准数据集,用于评估基于机器学习(ML)和深度学习(DL)的实体匹配算法。数据集涵盖结构化和文本类型,涉及学术、产品、企业等领域的实体对,支持多种匹配算法的测试与比较。

文件详解

  • 压缩文件(Compressed Files)
  • 文件名称:Dn7.zip、Dn6.zip、magellanExistingDatasets.tar.gz、Dn8.zip、Dn5.zip、Dn3.zip、Dn2.zip、Dn1.zip
  • 文件格式:ZIP(8个)、GZ(1个)
  • 字段映射介绍:文件包含13个已确立数据集(如Structured DBLP-ACM、Textual Abt-Buy等)和5个新基准数据集(如Abt-Buy、IMDB-TMDB等),具体字段因数据集类型而异,结构化数据集通常包含实体属性(如标题、作者、价格等),文本数据集包含实体描述文本。

适用场景

  • 实体匹配算法评估: 用于测试和比较ML/DL-based匹配算法(如EMTransformer、GNEM等)在不同数据集上的性能。
  • 实体解析研究: 支持Clean-Clean实体解析领域的模型训练与验证。
  • 数据集成应用: 为跨数据源的实体对齐任务提供基准测试数据。
  • 算法优化分析: 分析不同类型数据集(结构化/文本、清洁/脏数据)对匹配算法效果的影响。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 620.84 MiB
最后更新 2026年2月12日
创建于 2026年2月12日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。