WWW2020_Based_Web表格新实体发现实验复现资源

数据集概述

本数据集是论文《Novel Entity Discovery from Web Tables》的实验复现资源,包含三个用于Web表格新实体发现、实体类型与提及解析的测试集,以及300万张表格的提及-实体、标题-属性对应关系数据,支持论文中实体链接、表格匹配、实体解析实验的复现。

文件详解

  • 压缩包文件
  • 文件名称:www2020-webtables-v1.0.zip
  • 文件格式:ZIP
  • 包含实验复现所需的全部文件,具体分为三类:
  • 实体链接实验文件:training_el.csv、training_el_type.csv、training_el_type_wiki.csv、training_el_wiki.csv、training_schema.csv
  • 表格匹配实验文件:me_corres.csv(文本单元格与维基百科实体的算法链接数据)、hp_corres.csv(仅表格标题与属性的对应数据)
  • 实体解析实验文件:ec_golden.csv(2万条未链接提及的人工标注维基百科链接)、er_sf_golden.csv(1千条单元格值的人工聚类数据)、er_type_golden.csv(1千条单元格值的人工标注DBpedia类型数据)

数据来源

论文“S. Zhang, E. Meij, K. Balog, and R. Reinanda. Novel Entity Discovery from Web Tables. In: Proceeding of the The Web Conference 2020 (WWW ’20), April 2020”

适用场景

  • Web表格新实体发现研究:验证和复现论文中提出的新实体发现方法性能
  • 实体链接算法评估:基于训练数据测试不同实体链接模型在Web表格场景下的准确率
  • 表格匹配技术研究:利用标题-属性、提及-实体对应数据优化表格匹配算法
  • 实体解析模型训练:通过人工标注的实体类型、聚类数据训练实体解析模型
  • 信息抽取应用开发:为Web表格中的信息抽取任务提供标注数据支持
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 444.53 MiB
最后更新 2026年2月8日
创建于 2026年2月8日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。