数据集 - 海数据

知识库转储_Wikidata厨房用具数据

2026年2月9日 30 60 47

数据集概述本数据集是通过wdumps工具生成的Wikidata RDF转储，聚焦厨房用具子类。包含4个文件，无实体、陈述及三元组数据，主要提供转储元信息、规格说明、预览及压缩数据文件，可用于Wikidata厨房用具子类相关的语义数据研究与处理。文件详解元信息文件文件名称：info.json 文件格式：JSON...

ZIP

数据转储_Wikidata印度政治家属性数据

2026年2月1日 30 96 42

数据集概述本数据集是基于Wikidata生成的印度政治家属性RDF转储数据，通过wdumps工具生成。包含4个文件，涵盖元数据、规范配置、预览数据和压缩数据等类型，可用于获取印度政治家相关的结构化语义数据。文件详解元数据文件：文件名称：info.json 文件格式：JSON...

ZIP

Wikidata_RDF_人类性别信息转储数据

2026年2月1日 30 192 62

数据集概述本数据集是通过wdumps工具生成的Wikidata RDF转储，包含所有带有性别信息的人类实体数据。数据集以RDF格式呈现，包含实体、陈述和三元组信息，共4个文件，涵盖JSON配置文件、预览数据和压缩数据文件，适用于语义网络分析和性别信息研究。文件详解 info.json 文件格式：JSON...

ZIP

Wikidata_Dump_人物数据RDF转储数据

2026年1月31日 30 23 2

数据集概述本数据集是通过wdumps工具生成的Wikidata人物数据RDF转储，包含4个文件，涵盖信息描述、规格说明、预览数据和压缩数据等内容，可用于获取结构化的Wikidata人物相关数据。文件详解 info.json 文件格式：JSON...

ZIP

Wikidata_BabelNet01_RDF数据

2026年1月31日 30 60 3

数据集概述本数据集是通过wdumps工具生成的Wikidata RDF转储数据，聚焦BabelNet相关陈述。包含4个文件，涵盖数据文件、配置文件和预览文件，提供Wikidata数据的结构化存储和查询支持。文件详解文件名称：info.json 文件格式：JSON...

ZIP

Wikidata_Dump_People_RDF转储数据

2026年1月30日 30 160 102

数据集概述本数据集是通过wdumps工具生成的Wikidata人物实体RDF转储数据，包含实体、陈述及三元组等信息的结构化记录，涉及4个相关文件，覆盖JSON、NT、GZ等格式，可用于语义网相关的数据处理与分析。文件详解文件名称：info.json 文件格式：JSON...

ZIP

Wikidata_Dump_Based绘画RDF转储数据

2026年1月30日 30 156 130

数据集概述本数据集是通过wdumps工具生成的Wikidata绘画相关RDF转储数据，包含所有绘画作品的结构化信息。数据集由4个文件组成，涵盖配置信息、转储数据、预览数据和规范文件，可用于语义网研究、文化遗产数据分析等场景。文件详解文件名称：info.json 文件格式：JSON...

ZIP

Wikidata_Dump_Based维基数据RDF转储数据

2026年1月29日 30 33 7

数据集概述本数据集是通过wdumps工具生成的Wikidata RDF转储数据，包含实体、陈述和三元组信息的结构化记录，共包含4个文件，涵盖JSON、NT、GZ等格式，可用于语义网相关的数据分析与应用。文件详解 info.json 文件格式：JSON...

ZIP

Parabank_Based_黎巴嫩亲属称谓范式标注完整数据

2026年1月29日 30 24 22

数据集概述本数据集为Parabank项目中按亲属称谓范式标注的黎巴嫩亲属称谓数据，记录了符合该范式的黎巴嫩亲属称谓信息，可用于语言学领域中亲属称谓系统的研究，仅包含一个文件。文件详解文件名称：Parabank_Lebanese.xlsx 文件格式：XLSX...

ZIP

Wikidata_AI_Based_人工智能实体RDF转储数据

2026年1月28日 30 142 26

数据集概述本数据集是通过wdumps工具生成的Wikidata RDF转储，包含所有属于人工智能类或其子类的实体。数据以结构化格式存储，涵盖实体描述、标签、别名等元信息，为人工智能领域的知识图谱构建提供基础数据支持。文件详解 info.json 文件格式：JSON...

ZIP

Wikidata_Based_法官实体RDF转储数据_2024

2026年1月28日 30 178 55

数据集概述本数据集是Wikidata中法官相关实体的RDF转储数据，由wdumper工具生成。包含3845个实体、88346条陈述和879361条三元组，共4个文件，涵盖实体信息、陈述数据及转储元数据，为语义网研究和应用提供结构化数据支持。文件详解 info.json 文件格式：JSON...

ZIP

NLAS_multi_Based_多语言自然语言论证方案语料库数据

2026年1月27日 30 5 3

数据集概述本数据集为NLAS-multi多语言自然语言论证方案语料库，包含英文和西班牙文两种语言的论证方案，共计3810条，其中英文1893条、西班牙文1917条。数据涵盖推理关系7964组，以及同一主题下23781组论证冲突关系，总字数253516字，是研究多语言论证推理的结构化资源。文件详解文件名称：nlas-multi.json...

ZIP

BioEsCorpus_西班牙语临床报告生物医学实体关系注释语料库

2026年1月27日 30 102 59

数据集概述本数据集包含对西班牙临床案例语料库（SPACCC）中18份西班牙语临床报告进行生物医学实体与语义关系标注的文件及资源。标注涵盖11类实体和8类语义关系，最终识别出324个实体（涉及10类实体）和170条关系（涉及5类关系），为生物医学文本处理研究提供结构化标注资源。文件详解 brat_annotations目录...

ZIP

DravLex_Based_达罗毗荼语词汇数据库首版数据_v1_0_0

2026年1月22日 30 160 105

数据集概述本数据集为DravLex达罗毗荼语词汇数据库的首次发布版本，包含一个压缩文件，整体目录结构简洁，未划分训练/测试集、数据/标签集或原始/处理数据，无自述文件或内容预览，核心为达罗毗荼语词汇相关数据。文件详解压缩文件文件名称：Verkerk/DravLex-v1.0.0.zip 文件格式：ZIP...

ZIP

AuCoPro_Semantics_Based_复合词语义自动分析数据集

2026年1月22日 30 103 5

数据集概述本数据集用于复合词的自动语义分析，包含荷兰语和南非荷兰语的语义标注名词-名词复合词（NN），每种语言分两轮标注，标注指南基于Ó Séaghdha（2008）的标准；还包含荷兰语其他名词性复合词（XN），采用新开发的标注方案。数据集以压缩包形式提供，共1个文件。文件详解文件名称：AUCOPRO.Semantics.zip 文件格式：ZIP...

ZIP

Wikidata_Dump_politician_政治家实体RDF导出数据

2026年1月21日 30 119 111

数据集概述本数据集是使用wdumps工具生成的Wikidata政治家实体RDF导出数据，包含实体、陈述和三元组等信息，通过结构化文件记录数据导出的元信息、规范配置、预览数据等内容，总文件数为4个。文件详解 info.json 文件格式：JSON...

ZIP

OBO_Foundry_Snapshot_本体词汇分析数据集_20220316

2026年1月19日 30 208 27

数据集概述本数据集为2022年3月16日的OBO Foundry本体快照，用于OBO Foundry本体的词汇分析。包含3个文件，无目录层级，主要文件类型为ZIP压缩包和TSV表格，记录本体版本、候选本体及成员本体信息。文件详解 candidate_ontologies.zip 文件格式：ZIP 内容说明：候选本体压缩包，包含OBO...

ZIP

TECA_Textual_Entailment_Catalan数据集v_1_0_2

2026年1月15日 30 90 25

数据集概述本数据集为加泰罗尼亚语文本蕴含（TE）数据集TECA，包含catalan_TE1和vilaweb_TE两个子集，共14997和6166对标注的前提与假设句子对，标注类别为蕴含、矛盾或中立。数据来源于加泰罗尼亚语文本语料库和Vilaweb新闻专线，以.zip格式发布，无训练测试等拆分。文件详解文件名称：TECA_v.1.0.2.zip...