数据集

WWW2020_Based_Web表格新实体发现实验复现资源

数据集概述

本数据集是论文《Novel Entity Discovery from Web Tables》的实验复现资源，包含三个用于Web表格新实体发现、实体类型与提及解析的测试集，以及300万张表格的提及-实体、标题-属性对应关系数据，支持论文中实体链接、表格匹配、实体解析实验的复现。

文件详解

压缩包文件
文件名称：www2020-webtables-v1.0.zip
文件格式：ZIP
包含实验复现所需的全部文件，具体分为三类：
实体链接实验文件：training_el.csv、training_el_type.csv、training_el_type_wiki.csv、training_el_wiki.csv、training_schema.csv
表格匹配实验文件：me_corres.csv（文本单元格与维基百科实体的算法链接数据）、hp_corres.csv（仅表格标题与属性的对应数据）
实体解析实验文件：ec_golden.csv（2万条未链接提及的人工标注维基百科链接）、er_sf_golden.csv（1千条单元格值的人工聚类数据）、er_type_golden.csv（1千条单元格值的人工标注DBpedia类型数据）

数据来源

论文“S. Zhang, E. Meij, K. Balog, and R. Reinanda. Novel Entity Discovery from Web Tables. In: Proceeding of the The Web Conference 2020 (WWW ’20), April 2020”

适用场景

Web表格新实体发现研究：验证和复现论文中提出的新实体发现方法性能
实体链接算法评估：基于训练数据测试不同实体链接模型在Web表格场景下的准确率
表格匹配技术研究：利用标题-属性、提及-实体对应数据优化表格匹配算法
实体解析模型训练：通过人工标注的实体类型、聚类数据训练实体解析模型
信息抽取应用开发：为Web表格中的信息抽取任务提供标注数据支持

数据与资源

3627274.zipZIP
444.53 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	444.53 MiB
最后更新	2026年2月8日
创建于	2026年2月8日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。