超义关系数据集
数据来源:互联网公开数据
标签:超义关系,自然语言处理,NLP,词汇语义,知识库,机器学习,神经网络,WordNet,DBPedia,Wikidata,Yago
数据概述:
本数据集旨在提供用于超义关系检测的训练数据,涵盖从1963年至2021年间印度的初创企业完整记录。数据集中的所有实例,无论是正例还是反例,都是由至少一个资源(WordNet、DBPedia、Wikidata和Yago)直接关联的词对组成。这些资源包含数千种关系,其中一些关系表示超义关系,但程度不一。我们仅选择那些确定无疑的超义关系作为正例。
数据用途概述:
该数据集适用于自然语言处理任务中的超义关系检测。通过训练神经方法,研究人员可以识别词对之间的超义关系,这有助于提高问答系统、信息检索和语义理解等领域的能力。此外,数据集也适合用于教育培训,帮助学习者理解词汇语义关系的重要性。
举例:
在数据集中,词对("Tom Cruise", "actor")被标记为TRUE,表示"actor"是"Tom Cruise"的超义词。相反,词对("actor", "Tom Cruise")被标记为FALSE,因为"Tom Cruise"不是"actor"的超义词。数据集包含两个拆分:随机拆分(训练集:测试集:验证集=70:25:5)和词汇拆分,后者确保每个集合具有不同的词汇,防止模型过度拟合到最常见的x/y类别。
文件描述:
- train_rnd.csv: 随机拆分的训练集,包含词对及其超义关系标签。
- test_rnd.csv: 随机拆分的测试集,包含词对及其超义关系标签。
- val_rnd.csv: 随机拆分的验证集,包含词对及其超义关系标签。
- train_lex.csv: 词汇拆分的训练集,包含词对及其超义关系标签。
- test_lex.csv: 词汇拆分的测试集,包含词对及其超义关系标签。
- val_lex.csv: 词汇拆分的验证集,包含词对及其超义关系标签。
每个文件均为逗号分隔的文件,包含以下字段:
- x: 第一个词
- y: 第二个词
- label: TRUE如果y是x的超义词,否则FALSE
引用:
如果您在研究中使用此数据集,请引用以下出版物:
Vered Shwartz, Yoav Goldberg and Ido Dagan. ACL 2016. Improving Hypernymy Detection with an Integrated Path-based and Distributional Method.