-
Wikidata_Dump_People_RDF转储数据
2026年1月30日 30 127 11
数据集概述 本数据集是通过wdumps工具生成的Wikidata人物实体RDF转储数据,包含实体、陈述及三元组等信息的结构化记录,涉及4个相关文件,覆盖JSON、NT、GZ等格式,可用于语义网相关的数据处理与分析。 文件详解 文件名称:info.json 文件格式:JSON...
-
Wikidata_Dump_Based绘画RDF转储数据
2026年1月30日 30 10 9
数据集概述 本数据集是通过wdumps工具生成的Wikidata绘画相关RDF转储数据,包含所有绘画作品的结构化信息。数据集由4个文件组成,涵盖配置信息、转储数据、预览数据和规范文件,可用于语义网研究、文化遗产数据分析等场景。 文件详解 文件名称:info.json 文件格式:JSON...
-
Wikidata_Dump_Based维基数据RDF转储数据
2026年1月29日 30 206 141
数据集概述 本数据集是通过wdumps工具生成的Wikidata RDF转储数据,包含实体、陈述和三元组信息的结构化记录,共包含4个文件,涵盖JSON、NT、GZ等格式,可用于语义网相关的数据分析与应用。 文件详解 info.json 文件格式:JSON...
-
Parabank_Based_黎巴嫩亲属称谓范式标注完整数据
2026年1月29日 30 61 34
数据集概述 本数据集为Parabank项目中按亲属称谓范式标注的黎巴嫩亲属称谓数据,记录了符合该范式的黎巴嫩亲属称谓信息,可用于语言学领域中亲属称谓系统的研究,仅包含一个文件。 文件详解 文件名称:Parabank_Lebanese.xlsx 文件格式:XLSX...
-
Wikidata_AI_Based_人工智能实体RDF转储数据
2026年1月28日 30 28 17
数据集概述 本数据集是通过wdumps工具生成的Wikidata RDF转储,包含所有属于人工智能类或其子类的实体。数据以结构化格式存储,涵盖实体描述、标签、别名等元信息,为人工智能领域的知识图谱构建提供基础数据支持。 文件详解 info.json 文件格式:JSON...
-
Wikidata_Based_法官实体RDF转储数据_2024
2026年1月28日 30 113 51
数据集概述 本数据集是Wikidata中法官相关实体的RDF转储数据,由wdumper工具生成。包含3845个实体、88346条陈述和879361条三元组,共4个文件,涵盖实体信息、陈述数据及转储元数据,为语义网研究和应用提供结构化数据支持。 文件详解 info.json 文件格式:JSON...
-
NLAS_multi_Based_多语言自然语言论证方案语料库数据
2026年1月27日 30 40 31
数据集概述 本数据集为NLAS-multi多语言自然语言论证方案语料库,包含英文和西班牙文两种语言的论证方案,共计3810条,其中英文1893条、西班牙文1917条。数据涵盖推理关系7964组,以及同一主题下23781组论证冲突关系,总字数253516字,是研究多语言论证推理的结构化资源。 文件详解 文件名称:nlas-multi.json...
-
BioEsCorpus_西班牙语临床报告生物医学实体关系注释语料库
2026年1月27日 30 93 33
数据集概述 本数据集包含对西班牙临床案例语料库(SPACCC)中18份西班牙语临床报告进行生物医学实体与语义关系标注的文件及资源。标注涵盖11类实体和8类语义关系,最终识别出324个实体(涉及10类实体)和170条关系(涉及5类关系),为生物医学文本处理研究提供结构化标注资源。 文件详解 brat_annotations目录...
-
DravLex_Based_达罗毗荼语词汇数据库首版数据_v1_0_0
2026年1月22日 30 159 94
数据集概述 本数据集为DravLex达罗毗荼语词汇数据库的首次发布版本,包含一个压缩文件,整体目录结构简洁,未划分训练/测试集、数据/标签集或原始/处理数据,无自述文件或内容预览,核心为达罗毗荼语词汇相关数据。 文件详解 压缩文件 文件名称:Verkerk/DravLex-v1.0.0.zip 文件格式:ZIP...
-
AuCoPro_Semantics_Based_复合词语义自动分析数据集
2026年1月22日 30 39 13
数据集概述 本数据集用于复合词的自动语义分析,包含荷兰语和南非荷兰语的语义标注名词-名词复合词(NN),每种语言分两轮标注,标注指南基于Ó Séaghdha(2008)的标准;还包含荷兰语其他名词性复合词(XN),采用新开发的标注方案。数据集以压缩包形式提供,共1个文件。 文件详解 文件名称:AUCOPRO.Semantics.zip 文件格式:ZIP...
-
Wikidata_Dump_politician_政治家实体RDF导出数据
2026年1月21日 30 103 51
数据集概述 本数据集是使用wdumps工具生成的Wikidata政治家实体RDF导出数据,包含实体、陈述和三元组等信息,通过结构化文件记录数据导出的元信息、规范配置、预览数据等内容,总文件数为4个。 文件详解 info.json 文件格式:JSON...
-
OBO_Foundry_Snapshot_本体词汇分析数据集_20220316
2026年1月19日 30 68 45
数据集概述 本数据集为2022年3月16日的OBO Foundry本体快照,用于OBO Foundry本体的词汇分析。包含3个文件,无目录层级,主要文件类型为ZIP压缩包和TSV表格,记录本体版本、候选本体及成员本体信息。 文件详解 candidate_ontologies.zip 文件格式:ZIP 内容说明:候选本体压缩包,包含OBO...
-
TECA_Textual_Entailment_Catalan数据集v_1_0_2
2026年1月15日 30 30 0
数据集概述 本数据集为加泰罗尼亚语文本蕴含(TE)数据集TECA,包含catalan_TE1和vilaweb_TE两个子集,共14997和6166对标注的前提与假设句子对,标注类别为蕴含、矛盾或中立。数据来源于加泰罗尼亚语文本语料库和Vilaweb新闻专线,以.zip格式发布,无训练测试等拆分。 文件详解 文件名称:TECA_v.1.0.2.zip...
-
基于语料库的行为特征分析_古希腊形容词_mikrós_和_mégas_语义关系研究_补充材料
2026年1月12日 30 97 32
数据集概述 本数据集为论文“A corpus-based behavioral profile analysis of polysemy and antonymy: The case of the ancient Greek size adjectives mikrós and...
-
Wikidata_Dump_Items_subclass_of_Entities_RDF转储数据
2026年1月8日 30 204 149
数据集概述 本数据集是通过wdumps工具生成的Wikidata RDF转储数据,包含实体子类相关信息。数据文件总数为4个,包含JSON、NT和GZ格式文件,记录了转储元数据、规格参数及实体相关RDF数据结构信息。 文件详解 文件名称:info.json 文件格式:JSON...
-
意大利语动词情感推理词典
2025年12月14日 30 114 48
数据集概述 本数据集是用于情感推理的意大利语动词词典,包含动词的句法框架、极性、语义效果、关系及示例等信息,部分动词通过同义词框架引用关联,为意大利语文本的情感分析提供结构化动词语义标注支持。 文件详解 文件名称: clicl.pdf 文件格式: PDF 内容说明: 提供数据集理论背景与构建方法的相关论文,解释动词规范的理论基础。 文件名称:...
-
瑞典语计算词使用图数据集2_0_0
2025年12月13日 30 124 75
数据集概述 该数据集包含针对瑞典语的计算词使用图(Word Usage Graphs, WUGs),通过计算语义邻近模型自动标注使用对(边权重),可支持瑞典语词汇语义分析相关研究。 文件详解 文件名称:swewug_2.0.0.zip 文件格式:ZIP压缩包 内容说明:压缩包内包含瑞典语计算词使用图数据,具体数据格式及处理代码可参考WUGsite获取...
-
西班牙语循证医学临床试验语料库3版
2025年12月12日 30 150 91
数据集概述 该数据集是西班牙语的循证医学临床试验语料库(3版),包含一千二百篇文本(二十九万二千一百七十三条词元),涵盖期刊摘要与临床试验公告,标注了医学实体、语义关系等信息,为医学文本分析提供支持。 文件详解 文件名称:CT-EBM-SP-v3.zip 文件格式:ZIP压缩包...
-
赫尔辛基大学_Semantic_Domains_Based_阿卡德语词汇网络2_0完整数据
2025年12月9日 30 194 187
数据集概述 本数据集为赫尔辛基大学阿卡德语文本语义域项目创建的ANEE词汇网络2.0版本,包含GEXF格式的网络文件,以压缩包形式存储,提供词汇网络相关数据支持。 文件详解 文件名称: Data_scripts.zip 文件格式: ZIP压缩包 内容说明: 可能包含与数据集相关的数据处理脚本文件 文件名称: Networks.zip 文件格式:...
-
哥廷根印度语言电子文本注册处词典学数据集
2025年12月6日 30 7 4
数据集概述 该数据集是哥廷根印度语言电子文本注册处(GRETIL)下的词典学相关数据,主要包含四个HTML格式的文件,未区分训练/测试集、数据/标签集或原始/处理数据,文件类型单一。 文件详解 数据集包含4个HTML格式文件,具体如下: 文件名称:amark2_u.htm、amark3_u.htm、amark1pu.htm、amark1hu.htm...



