学术论文实体匹配研究数据集-DBLP与Scholar对比分析数据集
数据来源:互联网公开数据
标签:实体匹配,学术论文,数据库,数据清洗,数据质量,机器学习,数据库,论文,DBLP,Scholar
数据概述:
本数据集包含用于二元实体匹配研究的学术论文数据,旨在评估不同实体匹配方法在真实世界数据中的表现。数据集主要来源于两个学术出版物数据库:DBLP和Scholar,并提供了它们之间用于评估匹配效果的真实映射关系。
具体包括三个csv文件:
DBLP1.csv:来自DBLP数据库,数据相对干净,无冗余。
Scholar.csv:来自Scholar数据库,包含一定程度的脏数据和冗余。
DBLP-Scholar_PerfectMapping.csv:DBLP和Scholar数据集中论文的完美匹配关系,作为评估实体匹配算法的基准。
数据用途概述:
该数据集主要用于实体匹配算法的开发、测试和评估,以及数据清洗和数据质量研究。研究人员可以使用该数据集:
比较不同实体匹配算法的匹配质量和运行效率。
探索机器学习在实体匹配中的应用。
分析脏数据对实体匹配的影响。
评估各种相似度函数和参数设置对匹配结果的影响。
为构建更准确、更高效的实体匹配系统提供数据支持。
数据集支持的研究方向包括但不限于:数据库、数据挖掘、信息检索、自然语言处理等。