数据集 - 海数据

荷兰传记门户_生物信息_关系抽取_标注数据集

2026年2月1日 30 108 52

数据集概述本数据集为荷兰传记文本的人工标注关系抽取数据集，包含14类生物信息相关关系，如出生时间、居住地、亲属关系等。数据源自荷兰传记门户，包含测试集数据及说明文档，共2个文件，用于自然语言处理领域的关系抽取任务研究。文件详解 README.md 文件格式：.md...

ZIP

AI4D_Based法语至丰贝埃维神经机器翻译平行文本数据集

2026年1月29日 30 131 10

数据集概述本数据集是面向神经机器翻译任务的多语言平行文本集合，包含从法语到丰贝语（多哥语言）、法语到埃维语（贝宁语言）的平行句子对，总计七万余条标注数据，适用于机器翻译和句子分类任务，由AI4D倡议贡献。文件详解文件名称：French_to_fongbe.csv 文件格式：CSV...

ZIP

ECQuAD_GoBots_Based_巴西电商问答阅读理解开发数据集

2026年1月26日 30 44 1

数据集概述本数据集是针对巴西电商平台的阅读理解问答数据集（ECQuAD），由众包工作者基于商品描述标注问题，遵循SQuAD-v2格式，包含可回答与不可回答问题。数据集为开发版本，供公开使用，由GoBots提供，仅含一个文件。文件详解文件名称：ecquad_dev_v2.json 文件格式：JSON...

ZIP

Common_Voice_11_0_Spoken_NER_Dataset

2026年1月22日 30 120 2

数据集概述本数据集是基于Common Voice 11.0构建的口语命名实体识别（Spoken NER）数据集，包含荷兰语、英语和德语三种语言的口语命名实体识别数据，共3个JSON格式文件，无目录结构，未划分训练/测试集、数据/标签集或原始/处理集。文件详解荷兰语口语命名实体识别数据文件文件名称：cv_nl_dataset.json...

ZIP

PlanTL_Based_西班牙语临床病例语料库句子分割标注数据集_V1

2026年1月22日 30 150 76

数据集概述本数据集为西班牙临床病例语料库（SPACCC）的句子分割标注第一版，由基于FreeLing3.1的SPACCC词性标注工具完成标注。数据集包含1个压缩文件，无目录层级，无训练/测试、数据/标签等分割，可用于西班牙语临床文本的句子分割任务研究与模型训练。文件详解文件名称：SPACCC_SPLIT.zip 文件格式：ZIP...

ZIP

Biografischportaal_nl_荷兰传记文本命名实体识别数据集

2026年1月21日 30 173 3

数据集概述本数据集用于荷兰传记文本的命名实体识别，包含六种实体类型（PERSON、LOCATION、ORGANIZATION、DATE、ARTWORK、MISC）的标注。原始数据来源于荷兰传记门户网站，标注文件经人工检查分词和句子拆分，总计包含六个文件。文件详解...

ZIP

LexiconNewsAnalyzer_Esp_新闻评论情感分析词典扩展数据

2026年1月20日 30 79 54

数据集概述本数据集为论文《Lexicon-based comments-oriented news sentiment analyzer system》的配套资源，包含新闻评论情感分析的词典及示例扩展内容，由西班牙教育与科学部等机构资助项目支持开发，是自然语言处理领域情感分析任务的基础资源。文件详解...

ZIP

Portuguese_Comparative_Sentences_标注数据集_社交媒体与电商评论

2026年1月9日 30 205 2

数据集概述本数据集为葡萄牙语比较句标注数据，包含葡萄牙语比较词词典、Twitter社交媒体标注句及Buscapé电商平台标注句三部分。数据由人工标注，涵盖比较句类型、比较实体、关键词等信息，是葡萄牙语比较意见分析的基础资源。文件详解葡萄牙语比较词词典文件文件名称：portuguese_lexicon.csv 文件格式：CSV...

ZIP

数据73种语言句子级释义语料库TaPaCo

2025年12月22日 30 194 171

数据集概述该数据集为73种语言的句子级释义语料库TaPaCo，从Tatoeba数据库提取，经语言无关过滤和修剪步骤处理。含约190万句，每种语言20万至25万句，覆盖无其他释义数据集的语言，部分语言人工评估显示半数至四分之三释义正确。文件详解文件名称: tapaco_v1.0.zip：压缩包格式，包含73种语言的句子级释义语料库数据文件名称:...

ZIP

Max_Planck_Glottolog_Based_语言数据库5_2_1完整数据

2025年12月10日 30 184 105

数据集概述该数据集为Glottolog语言数据库5.2.1版本，由Hammarström等学者编纂，是一个系统性记录全球语言信息的专业数据库，为语言学研究提供标准化的语言分类与基础信息支持。文件详解文件名称：glottolog-v5.2.1.zip 文件格式：ZIP压缩包（.zip）内容说明：压缩包内包含Glottolog...

ZIP

MEDDOCAN西班牙语临床病例报告匿名化标注数据集

2025年12月16日 30 145 59

数据集概述该数据集包含MEDDOCAN共享任务的训练、开发、测试集（含黄金标准标注）及背景集（无标注），用于西班牙语临床病例报告的文档匿名化研究。标注采用Brat和XML格式，支持格式转换，为医学文本去标识任务提供标准化数据。文件详解文件名称: meddocan.zip 文件格式: ZIP压缩包内容说明:...

ZIP

跨语言共现词数据库CLICS3

2025年12月14日 30 127 37

数据集概述该数据集为CLICS3（跨语言共现词数据库第三版），包含跨语言词汇共现现象的相关数据，支持对跨语言多义性的可重复分析，为语言学领域研究词汇语义关联提供数据基础。文件详解文件名称: clics3-v1.1.zip 文件格式: ZIP (.zip) 内容说明:...

ZIP

加泰罗尼亚语和西班牙语词汇简化与复杂度预测数据集

2025年12月13日 30 118 38

数据集概述本数据集包含加泰罗尼亚语和西班牙语的词汇简化与复杂度预测数据，是MLSP多语言词汇简化管道数据集的一部分，曾用于BEA教育应用NLP创新研讨会的MLSP共享任务，支持词汇复杂度评估与简化研究。文件详解加泰罗尼亚语测试数据压缩包：Catalan_Test.zip，ZIP格式，包含加泰罗尼亚语测试用词汇简化与复杂度预测数据...

ZIP

Dellert_NorthEuraLex_Based_跨语言词汇数据CLDF格式完整数据集

2025年12月9日 30 79 37

数据集概述本数据集是基于Dellert等人2020年发布的"NorthEuraLex (Version 0.9)"转换而来的CLDF（Cross-Linguistic Data Formats）格式数据，为跨语言研究提供标准化资源。文件详解文件名称: lexibank/northeuralex-v4.1.zip 文件格式: ZIP压缩包...

ZIP

西班牙语COVID_19推文职业检测黄金标准标注数据集2021

2025年12月6日 30 60 42

数据集概述本数据集包含一万条带黄金标准标注的西班牙语COVID-19推文，按训练集、验证集、测试集以六十比二十比二十比例划分，涵盖职业分类与命名实体识别两个子任务的标注数据，同时提供多格式文件及工具脚本，支持自然语言处理模型训练与评估。文件详解数据集为压缩包格式，包含两个子任务相关文件，具体说明如下： - subtask-1（职业分类子任务）：...

ZIP

跨语言数词系统构成结构数据集2025

2025年12月4日 30 121 113

数据集概述该数据集呈现了2025年Rubehn等人关于跨语言数词系统构成结构的研究成果，包含数词系统构成结构的标注与推理相关数据，为计算语言类型学和多语言自然语言处理研究提供支持。文件详解文件名称：numeralbank/cosinus-v1.1.zip 文件格式：ZIP压缩包（.zip）...

ZIP

SympTEMIST症状体征信息抽取标注数据集

2025年12月4日 30 60 39

数据集概述该数据集是针对西班牙语文档中症状、体征和检查结果进行信息抽取的标注资源，包含任务训练测试集、SNOMED术语词表、九种语言的银标准数据及一万五千余例临床病例背景集，为医学文本挖掘研究提供标准化标注数据。文件详解文件名称: symptemist-complete_240208.zip 文件格式: ZIP压缩包包含内容:...

ZIP

找到17个数据集

注册成功！