数据集 - 海数据

Tigrinya_Analogy_Test_词嵌入模型评估数据集

2026年2月13日 30 181 76

数据集概述本数据集是提格利尼亚语版的谷歌类比测试集，用于评估词嵌入模型质量。数据经机器翻译后由母语者人工验证，剔除了不适用的条目，最终包含一万八千四百六十五条语义和句法类比条目，分为首都、货币、家庭、时态等九个测试小节。文件详解文件名称：TigrinyaAnalogyTest.zip 文件格式：ZIP...

ZIP

阿姆哈拉语监督式主题分类语料库

2026年2月12日 30 30 4

数据集概述本数据集为阿姆哈拉语主题分类监督语料库，由埃塞俄比亚记者专业标注，文件名为Supervised_Topic_Classifier_Corpus.xml。数据集包含一份XML格式文件，未划分训练/测试集、数据/标签集或原始/处理集，可用于自然语言处理领域的阿姆哈拉语文本分类研究，需进一步优化完善。文件详解...

ZIP

Ge_ez_Based_文本抽取式摘要任务数据集

2026年2月1日 30 120 82

数据集概述本数据集为Ge'ez语言文本的抽取式摘要任务专用数据，包含一份Ge'ez语言的文本文件，主要用于自然语言处理领域的文本摘要算法训练与测试，支持对Ge'ez文本内容的结构化分析需求。文件详解文件名称：Geez_Text_120.xlsx 文件格式：XLSX...

ZIP

Urdu_Based乌尔都语攻击性内容数据集及实现代码

2026年1月30日 30 186 27

数据集概述本数据集包含乌尔都语攻击性语言相关的Python代码和多种特征文件，用于复现研究论文结果并扩展相关发现。数据集共含5个文件，无目录层级，主要分为数据文件和代码文件两类，支持乌尔都语文本的攻击性内容分析任务。文件详解数据文件（.xlsx格式，共3个） dataset-unigram.xlsx：乌尔都语攻击性内容的单字词特征数据...

ZIP

南非语言嵌入评估数据集_Simlex_和_WordSim

2026年1月30日 30 170 31

数据集概述本数据集包含针对南非语言（塞茨瓦纳语、塞佩迪语）的Simlex和WordSim评估数据，通过人工标注的单词对相似度评分，用于衡量语义相关性。单词对由英文手动翻译而来，可用于计算模型向量余弦相似度与人类评分的相关性，评估语言模型性能。数据集共含4个文件。文件详解文件名称：SimLex-999-orig - Sepedi.xlsx...

ZIP

CLDF_Ivani_Suansu基础词汇数据集2019

2026年1月30日 30 40 8

数据集概述本数据集是基于Ivani 2019年关于印度东北部藏缅语族语言Suansu的基础词汇研究形成的CLDF格式数据集，核心内容为Suansu语言的基础词汇信息，为语言研究提供结构化资源。文件详解文件名称：lexibank/ivanisuansu-v2.0.zip 文件格式：ZIP...

ZIP

AI4D_Based法语至丰贝埃维神经机器翻译平行文本数据集

2026年1月29日 30 191 25

数据集概述本数据集是面向神经机器翻译任务的多语言平行文本集合，包含从法语到丰贝语（多哥语言）、法语到埃维语（贝宁语言）的平行句子对，总计七万余条标注数据，适用于机器翻译和句子分类任务，由AI4D倡议贡献。文件详解文件名称：French_to_fongbe.csv 文件格式：CSV...

ZIP

UCS_Dataset_Based_乌尔都语犯罪新闻摘要语料库

2026年1月29日 30 30 4

数据集概述本数据集包含1500篇乌尔都语犯罪新闻文章的摘要内容，主要用于训练抽象式文本摘要模型。数据集仅含一个文件，无目录结构，未划分训练/测试集、数据/标签集或原始/处理数据集，便于集中使用。文件详解文件名称：UCS-Dataset.xlsx 文件格式：XLSX...

ZIP

OWT_Tag_Based_奥克语传统书面民间故事词性标注语料库

2026年1月28日 30 180 148

数据集概述本数据集包含5篇奥克语传统书面民间故事文本摘录，均按照Grace标准进行了词元与词性的人工标注。文本摘录自J.-F. Bladé、J.-V. Lalanne等作者的民间故事集，每篇约1500词，用于评估奥克语词性标注工具Talismane针对OcOr语料库的性能，由ExpressioNarration项目产出。文件详解文件名称：OWT-...

ZIP

deLearyous_Based_人际环模型荷兰语情感分类数据集

2026年1月28日 30 176 36

数据集概述本数据集为基于Leary's Rose（人际环模型）的荷兰弗拉芒语情感分类数据集，包含11段对话的句子级标注。标注涵盖"支配性"和"亲和性"两个维度，提供8个象限离散类别标签、中性类别标签，以及连续值细粒度标注，用于情感分类研究。文件详解文件名称：deLearyous.zip 文件格式：ZIP...

ZIP

NLUCat_Based_加泰罗尼亚语NLU意图与槽位标注数据集

2026年1月28日 30 3 0

数据集概述本数据集为加泰罗尼亚语的自然语言理解（NLU）数据集，包含近1.2万条标注指令，涵盖虚拟家庭助手常用意图及弱势群体的社会、医疗需求意图，标注细粒度槽位并考虑加泰罗尼亚语使用者的地理文化背景。可用于训练意图分类、槽位识别及示例生成模型。文件详解主数据集文件文件名称：NLUCat_dataset.json 文件格式：JSON...

ZIP

Tolosa_Treebank_Occitan语言依存句法标注数据

2026年1月27日 30 61 44

数据集概述本数据集是首个奥克语依存树库，由POCTEFA Interreg欧洲基金资助的EFA 227/16 LINGUATEC项目开发。包含25K个标注了词性标签、词元及句法依存关系的词元，遵循通用依存关系（UD）标注规范，数据以ConLL-U格式存储，覆盖加斯科涅、朗格多克、勒穆瓦纳和普罗旺斯四种主要奥克语方言。文件详解...

ZIP

African_News_Corpus_非洲19种语言新闻语料数据

2026年1月27日 30 185 47

数据集概述本数据集为非洲19种语言的单语种新闻语料库，来源包括VOA、BBC、Isolezwe等平台及项目。数据由不同来源整合而成，涉及多种非洲本土语言，总计包含20个文件，均为压缩格式，无目录层级结构。文件详解压缩文件包...

ZIP

HornMT_Based_非洲之角多语言机器翻译基准平行语料数据集

2026年1月27日 30 39 30

数据集概述本数据集是针对非洲之角语言的机器翻译基准平行语料库，包含阿法尔语、阿姆哈拉语、英语、奥罗莫语、索马里语、提格雷尼亚语6种语言的新闻片段平行文本，以及每条文本对应的元数据（如新闻范围、类别、来源等），支持多语言机器翻译研究与系统开发。文件详解核心数据文件目录名称：data/...

ZIP

Deep_learning_Based_孟加拉语深度学习问答系统数据集

2026年1月26日 30 160 132

数据集概述本数据集是论文《Deep learning based question answering system in Bengali》的配套数据，为SQuAD 2.0数据集的孟加拉语翻译版本，包含训练、验证及预处理翻译结果三类文件，共3个JSON格式文件，可用于孟加拉语问答系统的深度学习研究。文件详解...

ZIP

Gronings_Based_低资源语言口语术语检测特征提取方法评估数据集

2026年1月21日 30 30 0

数据集概述本数据集用于评估低资源语言下基于示例查询的口语术语检测（QBE-STD）的特征提取方法，核心围绕Gronings语言相关的检测任务，通过单一压缩文件提供数据支持，可结合GitHub仓库的README获取详细信息。文件详解文件名称：gos-kdl.zip 文件格式：ZIP...

ZIP

Fongbe_Speech_Dataset_贝宁Fongbe语言语音数据集

2026年1月21日 30 42 10

数据集概述本数据集为贝宁主要使用的Fongbe语言语音数据集，包含语音音频文件、对应转录文本、数据集文档及元数据文件，用于支持Fongbe语言相关的语音技术研究与应用开发。文件详解压缩包文件文件名称：Fongbe_Speech_Dataset.zip 文件格式：ZIP 字段映射介绍：压缩包内包含三个核心部分：...

ZIP

Bangla_REX_Based_孟加拉语关系抽取数据集_完整标注版

2026年1月23日 30 73 20

数据集概述本数据集是针对孟加拉语关系抽取任务构建的专用数据集，基于结构化知识库和标注语料的理论框架生成。包含63,256条条目组成的孟加拉语知识库（KB）、90,441条带命名实体识别（NER）和词性标注（POS）的文本语料，以及440个孟加拉语地点助记符，可直接用于关系抽取任务。文件详解 location_mnemonics.xlsx...

ZIP

ARAFA_Generated_Based_阿拉伯语大规模事实核查数据集

2026年1月21日 30 144 83

数据集概述本数据集是面向阿拉伯语自然语言处理的大规模事实核查数据集ARAFA，通过大语言模型自动化框架构建，包含181,976条标注为支持、反驳或信息不足的主张-证据对，可用于阿拉伯语自动事实核查模型训练与评估。文件详解文件名称：ARAFA.json 文件格式：JSON...

ZIP

低资源语言数据集_基于肯尼亚本土语言与斯瓦希里语的平行语料库_v1_0_0

2026年1月21日 30 193 147

数据集概述本数据集包含肯尼亚三种本土语言（Kidaw'ida、Kalenjin、Dholuo）与斯瓦希里语的平行语料库，每种语料库平均含三万句对，用于训练机器翻译模型，支持斯瓦希里语与本土语言间的翻译，由USIU-Africa等机构研究者创建，将持续更新优化。文件详解文件名称：waleghwa/low-resource-language-...

ZIP

找到60个数据集

注册成功！