-
监督式匹配与实体解析的清洗数据集
2026年2月12日 30 119 61
数据集概述 本数据集包含13个已确立的基准数据集和5个新基准数据集,用于评估基于机器学习(ML)和深度学习(DL)的实体匹配算法。数据集涵盖结构化和文本类型,涉及学术、产品、企业等领域的实体对,支持多种匹配算法的测试与比较。 文件详解 压缩文件(Compressed Files)...
-
WWW2020_Based_Web表格新实体发现实验复现资源
2026年2月8日 30 147 113
数据集概述 本数据集是论文《Novel Entity Discovery from Web Tables》的实验复现资源,包含三个用于Web表格新实体发现、实体类型与提及解析的测试集,以及300万张表格的提及-实体、标题-属性对应关系数据,支持论文中实体链接、表格匹配、实体解析实验的复现。 文件详解 压缩包文件...
-
实体解析名称与公司数据集EntityResolutionNamevsCompanyDataset-mastmustu
2025年4月26日 30 117 83
实体解析名称与公司数据集EntityResolutionNamevsCompanyDataset-mastmustu 数据来源:互联网公开数据 标签:实体解析,数据集,企业信息,机器学习,自然语言处理,数据匹配,商业智能,信息整合 数据概述: 该数据集包含来自公开企业信息平台的数据,记录了企业名称与企业实体之间的对应关系。主要特征如下:...
-
新闻事件实体解析数据集EntityResolutionforNewsEventsDataset-hiten26
2025年4月26日 30 158 100
新闻事件实体解析数据集EntityResolutionforNewsEventsDataset-hiten26 数据来源:互联网公开数据 标签:新闻事件,实体解析,数据集,自然语言处理,信息抽取,文本分析,机器学习,数据整合 数据概述:该数据集包含来自新闻报道的数据,主要用于实体解析和新闻事件的识别。主要特征如下:...



