超义关系数据集

超义关系数据集 数据来源:互联网公开数据 标签:超义关系,自然语言处理,NLP,词汇语义,知识库,机器学习,神经网络,WordNet,DBPedia,Wikidata,Yago

数据概述: 本数据集旨在提供用于超义关系检测的训练数据,涵盖从1963年至2021年间印度的初创企业完整记录。数据集中的所有实例,无论是正例还是反例,都是由至少一个资源(WordNet、DBPedia、Wikidata和Yago)直接关联的词对组成。这些资源包含数千种关系,其中一些关系表示超义关系,但程度不一。我们仅选择那些确定无疑的超义关系作为正例。

数据用途概述: 该数据集适用于自然语言处理任务中的超义关系检测。通过训练神经方法,研究人员可以识别词对之间的超义关系,这有助于提高问答系统、信息检索和语义理解等领域的能力。此外,数据集也适合用于教育培训,帮助学习者理解词汇语义关系的重要性。

举例: 在数据集中,词对("Tom Cruise", "actor")被标记为TRUE,表示"actor"是"Tom Cruise"的超义词。相反,词对("actor", "Tom Cruise")被标记为FALSE,因为"Tom Cruise"不是"actor"的超义词。数据集包含两个拆分:随机拆分(训练集:测试集:验证集=70:25:5)和词汇拆分,后者确保每个集合具有不同的词汇,防止模型过度拟合到最常见的x/y类别。

文件描述: - train_rnd.csv: 随机拆分的训练集,包含词对及其超义关系标签。 - test_rnd.csv: 随机拆分的测试集,包含词对及其超义关系标签。 - val_rnd.csv: 随机拆分的验证集,包含词对及其超义关系标签。 - train_lex.csv: 词汇拆分的训练集,包含词对及其超义关系标签。 - test_lex.csv: 词汇拆分的测试集,包含词对及其超义关系标签。 - val_lex.csv: 词汇拆分的验证集,包含词对及其超义关系标签。

每个文件均为逗号分隔的文件,包含以下字段: - x: 第一个词 - y: 第二个词 - label: TRUE如果y是x的超义词,否则FALSE

引用: 如果您在研究中使用此数据集,请引用以下出版物: Vered Shwartz, Yoav Goldberg and Ido Dagan. ACL 2016. Improving Hypernymy Detection with an Integrated Path-based and Distributional Method.

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.82 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。