学术论文实体匹配研究数据集-DBLP与Scholar对比分析数据集

学术论文实体匹配研究数据集-DBLP与Scholar对比分析数据集 数据来源:互联网公开数据 标签:实体匹配,学术论文,数据库,数据清洗,数据质量,机器学习,数据库,论文,DBLP,Scholar

数据概述: 本数据集包含用于二元实体匹配研究的学术论文数据,旨在评估不同实体匹配方法在真实世界数据中的表现。数据集主要来源于两个学术出版物数据库:DBLP和Scholar,并提供了它们之间用于评估匹配效果的真实映射关系。

具体包括三个csv文件:

DBLP1.csv:来自DBLP数据库,数据相对干净,无冗余。 Scholar.csv:来自Scholar数据库,包含一定程度的脏数据和冗余。 DBLP-Scholar_PerfectMapping.csv:DBLP和Scholar数据集中论文的完美匹配关系,作为评估实体匹配算法的基准。

数据用途概述: 该数据集主要用于实体匹配算法的开发、测试和评估,以及数据清洗和数据质量研究。研究人员可以使用该数据集:

比较不同实体匹配算法的匹配质量和运行效率。 探索机器学习在实体匹配中的应用。 分析脏数据对实体匹配的影响。 评估各种相似度函数和参数设置对匹配结果的影响。 为构建更准确、更高效的实体匹配系统提供数据支持。 数据集支持的研究方向包括但不限于:数据库、数据挖掘、信息检索、自然语言处理等。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 3.97 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。