数据集概述
本数据集是论文《Novel Entity Discovery from Web Tables》的实验复现资源,包含三个用于Web表格新实体发现、实体类型与提及解析的测试集,以及300万张表格的提及-实体、标题-属性对应关系数据,支持论文中实体链接、表格匹配、实体解析实验的复现。
文件详解
- 压缩包文件
- 文件名称:www2020-webtables-v1.0.zip
- 文件格式:ZIP
- 包含实验复现所需的全部文件,具体分为三类:
- 实体链接实验文件:training_el.csv、training_el_type.csv、training_el_type_wiki.csv、training_el_wiki.csv、training_schema.csv
- 表格匹配实验文件:me_corres.csv(文本单元格与维基百科实体的算法链接数据)、hp_corres.csv(仅表格标题与属性的对应数据)
- 实体解析实验文件:ec_golden.csv(2万条未链接提及的人工标注维基百科链接)、er_sf_golden.csv(1千条单元格值的人工聚类数据)、er_type_golden.csv(1千条单元格值的人工标注DBpedia类型数据)
数据来源
论文“S. Zhang, E. Meij, K. Balog, and R. Reinanda. Novel Entity Discovery from Web Tables. In: Proceeding of the The Web Conference 2020 (WWW ’20), April 2020”
适用场景
- Web表格新实体发现研究:验证和复现论文中提出的新实体发现方法性能
- 实体链接算法评估:基于训练数据测试不同实体链接模型在Web表格场景下的准确率
- 表格匹配技术研究:利用标题-属性、提及-实体对应数据优化表格匹配算法
- 实体解析模型训练:通过人工标注的实体类型、聚类数据训练实体解析模型
- 信息抽取应用开发:为Web表格中的信息抽取任务提供标注数据支持