数据集

超义关系数据集

超义关系数据集数据来源：互联网公开数据标签：超义关系,自然语言处理,NLP,词汇语义,知识库,机器学习,神经网络,WordNet,DBPedia,Wikidata,Yago

数据概述：本数据集旨在提供用于超义关系检测的训练数据，涵盖从1963年至2021年间印度的初创企业完整记录。数据集中的所有实例，无论是正例还是反例，都是由至少一个资源（WordNet、DBPedia、Wikidata和Yago）直接关联的词对组成。这些资源包含数千种关系，其中一些关系表示超义关系，但程度不一。我们仅选择那些确定无疑的超义关系作为正例。

数据用途概述：该数据集适用于自然语言处理任务中的超义关系检测。通过训练神经方法，研究人员可以识别词对之间的超义关系，这有助于提高问答系统、信息检索和语义理解等领域的能力。此外，数据集也适合用于教育培训，帮助学习者理解词汇语义关系的重要性。

举例：在数据集中，词对("Tom Cruise", "actor")被标记为TRUE，表示"actor"是"Tom Cruise"的超义词。相反，词对("actor", "Tom Cruise")被标记为FALSE，因为"Tom Cruise"不是"actor"的超义词。数据集包含两个拆分：随机拆分（训练集:测试集:验证集=70:25:5）和词汇拆分，后者确保每个集合具有不同的词汇，防止模型过度拟合到最常见的x/y类别。

文件描述： - train_rnd.csv: 随机拆分的训练集，包含词对及其超义关系标签。 - test_rnd.csv: 随机拆分的测试集，包含词对及其超义关系标签。 - val_rnd.csv: 随机拆分的验证集，包含词对及其超义关系标签。 - train_lex.csv: 词汇拆分的训练集，包含词对及其超义关系标签。 - test_lex.csv: 词汇拆分的测试集，包含词对及其超义关系标签。 - val_lex.csv: 词汇拆分的验证集，包含词对及其超义关系标签。

每个文件均为逗号分隔的文件，包含以下字段： - x: 第一个词 - y: 第二个词 - label: TRUE如果y是x的超义词，否则FALSE

引用：如果您在研究中使用此数据集，请引用以下出版物： Vered Shwartz, Yoav Goldberg and Ido Dagan. ACL 2016. Improving Hypernymy Detection with an Integrated Path-based and Distributional Method.

数据与资源

超义关系数据集.zipZIP
0.82 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	0.82 MiB
最后更新	2025年4月15日
创建于	2025年4月15日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

超义关系数据集

数据与资源

附加信息

注册成功！