监督式匹配与实体解析的清洗数据集

本数据集包含13个已确立的基准数据集和5个新基准数据集，用于评估基于机器学习（ML）和深度学习（DL）的实体匹配算法。数据集涵盖结构化和文本类型，涉及学术、产品、企业等领域的实体对，支持多种匹配算法的测试与比较。

压缩文件（Compressed Files）
文件名称：Dn7.zip、Dn6.zip、magellanExistingDatasets.tar.gz、Dn8.zip、Dn5.zip、Dn3.zip、Dn2.zip、Dn1.zip
文件格式：ZIP（8个）、GZ（1个）
字段映射介绍：文件包含13个已确立数据集（如Structured DBLP-ACM、Textual Abt-Buy等）和5个新基准数据集（如Abt-Buy、IMDB-TMDB等），具体字段因数据集类型而异，结构化数据集通常包含实体属性（如标题、作者、价格等），文本数据集包含实体描述文本。

数据与资源

字段	值
作者	Maxj
版本	1
数据集大小	620.84 MiB
最后更新	2026年2月12日
创建于	2026年2月12日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。