找到60个数据集

标签: 低资源语言

过滤结果
  • Tigrinya_Analogy_Test_词嵌入模型评估数据集

    2026年2月13日 30 181 76

    数据集概述 本数据集是提格利尼亚语版的谷歌类比测试集,用于评估词嵌入模型质量。数据经机器翻译后由母语者人工验证,剔除了不适用的条目,最终包含一万八千四百六十五条语义和句法类比条目,分为首都、货币、家庭、时态等九个测试小节。 文件详解 文件名称:TigrinyaAnalogyTest.zip 文件格式:ZIP...
    packageimg
  • 阿姆哈拉语监督式主题分类语料库

    2026年2月12日 30 30 4

    数据集概述 本数据集为阿姆哈拉语主题分类监督语料库,由埃塞俄比亚记者专业标注,文件名为Supervised_Topic_Classifier_Corpus.xml。数据集包含一份XML格式文件,未划分训练/测试集、数据/标签集或原始/处理集,可用于自然语言处理领域的阿姆哈拉语文本分类研究,需进一步优化完善。 文件详解...
    packageimg
  • Ge_ez_Based_文本抽取式摘要任务数据集

    2026年2月1日 30 120 82

    数据集概述 本数据集为Ge'ez语言文本的抽取式摘要任务专用数据,包含一份Ge'ez语言的文本文件,主要用于自然语言处理领域的文本摘要算法训练与测试,支持对Ge'ez文本内容的结构化分析需求。 文件详解 文件名称:Geez_Text_120.xlsx 文件格式:XLSX...
    packageimg
  • Urdu_Based乌尔都语攻击性内容数据集及实现代码

    2026年1月30日 30 186 27

    数据集概述 本数据集包含乌尔都语攻击性语言相关的Python代码和多种特征文件,用于复现研究论文结果并扩展相关发现。数据集共含5个文件,无目录层级,主要分为数据文件和代码文件两类,支持乌尔都语文本的攻击性内容分析任务。 文件详解 数据文件(.xlsx格式,共3个) dataset-unigram.xlsx:乌尔都语攻击性内容的单字词特征数据...
    packageimg
  • 南非语言嵌入评估数据集_Simlex_和_WordSim

    2026年1月30日 30 170 31

    数据集概述 本数据集包含针对南非语言(塞茨瓦纳语、塞佩迪语)的Simlex和WordSim评估数据,通过人工标注的单词对相似度评分,用于衡量语义相关性。单词对由英文手动翻译而来,可用于计算模型向量余弦相似度与人类评分的相关性,评估语言模型性能。数据集共含4个文件。 文件详解 文件名称:SimLex-999-orig - Sepedi.xlsx...
    packageimg
  • CLDF_Ivani_Suansu基础词汇数据集2019

    2026年1月30日 30 40 8

    数据集概述 本数据集是基于Ivani 2019年关于印度东北部藏缅语族语言Suansu的基础词汇研究形成的CLDF格式数据集,核心内容为Suansu语言的基础词汇信息,为语言研究提供结构化资源。 文件详解 文件名称:lexibank/ivanisuansu-v2.0.zip 文件格式:ZIP...
    packageimg
  • AI4D_Based法语至丰贝埃维神经机器翻译平行文本数据集

    2026年1月29日 30 191 25

    数据集概述 本数据集是面向神经机器翻译任务的多语言平行文本集合,包含从法语到丰贝语(多哥语言)、法语到埃维语(贝宁语言)的平行句子对,总计七万余条标注数据,适用于机器翻译和句子分类任务,由AI4D倡议贡献。 文件详解 文件名称:French_to_fongbe.csv 文件格式:CSV...
    packageimg
  • UCS_Dataset_Based_乌尔都语犯罪新闻摘要语料库

    2026年1月29日 30 30 4

    数据集概述 本数据集包含1500篇乌尔都语犯罪新闻文章的摘要内容,主要用于训练抽象式文本摘要模型。数据集仅含一个文件,无目录结构,未划分训练/测试集、数据/标签集或原始/处理数据集,便于集中使用。 文件详解 文件名称:UCS-Dataset.xlsx 文件格式:XLSX...
    packageimg
  • OWT_Tag_Based_奥克语传统书面民间故事词性标注语料库

    2026年1月28日 30 180 148

    数据集概述 本数据集包含5篇奥克语传统书面民间故事文本摘录,均按照Grace标准进行了词元与词性的人工标注。文本摘录自J.-F. Bladé、J.-V. Lalanne等作者的民间故事集,每篇约1500词,用于评估奥克语词性标注工具Talismane针对OcOr语料库的性能,由ExpressioNarration项目产出。 文件详解 文件名称:OWT-...
    packageimg
  • deLearyous_Based_人际环模型荷兰语情感分类数据集

    2026年1月28日 30 176 36

    数据集概述 本数据集为基于Leary's Rose(人际环模型)的荷兰弗拉芒语情感分类数据集,包含11段对话的句子级标注。标注涵盖"支配性"和"亲和性"两个维度,提供8个象限离散类别标签、中性类别标签,以及连续值细粒度标注,用于情感分类研究。 文件详解 文件名称:deLearyous.zip 文件格式:ZIP...
    packageimg
  • NLUCat_Based_加泰罗尼亚语NLU意图与槽位标注数据集

    2026年1月28日 30 3 0

    数据集概述 本数据集为加泰罗尼亚语的自然语言理解(NLU)数据集,包含近1.2万条标注指令,涵盖虚拟家庭助手常用意图及弱势群体的社会、医疗需求意图,标注细粒度槽位并考虑加泰罗尼亚语使用者的地理文化背景。可用于训练意图分类、槽位识别及示例生成模型。 文件详解 主数据集文件 文件名称:NLUCat_dataset.json 文件格式:JSON...
    packageimg
  • Tolosa_Treebank_Occitan语言依存句法标注数据

    2026年1月27日 30 61 44

    数据集概述 本数据集是首个奥克语依存树库,由POCTEFA Interreg欧洲基金资助的EFA 227/16 LINGUATEC项目开发。包含25K个标注了词性标签、词元及句法依存关系的词元,遵循通用依存关系(UD)标注规范,数据以ConLL-U格式存储,覆盖加斯科涅、朗格多克、勒穆瓦纳和普罗旺斯四种主要奥克语方言。 文件详解...
    packageimg
  • African_News_Corpus_非洲19种语言新闻语料数据

    2026年1月27日 30 185 47

    数据集概述 本数据集为非洲19种语言的单语种新闻语料库,来源包括VOA、BBC、Isolezwe等平台及项目。数据由不同来源整合而成,涉及多种非洲本土语言,总计包含20个文件,均为压缩格式,无目录层级结构。 文件详解 压缩文件包...
    packageimg
  • HornMT_Based_非洲之角多语言机器翻译基准平行语料数据集

    2026年1月27日 30 39 30

    数据集概述 本数据集是针对非洲之角语言的机器翻译基准平行语料库,包含阿法尔语、阿姆哈拉语、英语、奥罗莫语、索马里语、提格雷尼亚语6种语言的新闻片段平行文本,以及每条文本对应的元数据(如新闻范围、类别、来源等),支持多语言机器翻译研究与系统开发。 文件详解 核心数据文件 目录名称:data/...
    packageimg
  • Deep_learning_Based_孟加拉语深度学习问答系统数据集

    2026年1月26日 30 160 132

    数据集概述 本数据集是论文《Deep learning based question answering system in Bengali》的配套数据,为SQuAD 2.0数据集的孟加拉语翻译版本,包含训练、验证及预处理翻译结果三类文件,共3个JSON格式文件,可用于孟加拉语问答系统的深度学习研究。 文件详解...
    packageimg
  • Gronings_Based_低资源语言口语术语检测特征提取方法评估数据集

    2026年1月21日 30 30 0

    数据集概述 本数据集用于评估低资源语言下基于示例查询的口语术语检测(QBE-STD)的特征提取方法,核心围绕Gronings语言相关的检测任务,通过单一压缩文件提供数据支持,可结合GitHub仓库的README获取详细信息。 文件详解 文件名称:gos-kdl.zip 文件格式:ZIP...
    packageimg
  • Fongbe_Speech_Dataset_贝宁Fongbe语言语音数据集

    2026年1月21日 30 42 10

    数据集概述 本数据集为贝宁主要使用的Fongbe语言语音数据集,包含语音音频文件、对应转录文本、数据集文档及元数据文件,用于支持Fongbe语言相关的语音技术研究与应用开发。 文件详解 压缩包文件 文件名称:Fongbe_Speech_Dataset.zip 文件格式:ZIP 字段映射介绍:压缩包内包含三个核心部分:...
    packageimg
  • Bangla_REX_Based_孟加拉语关系抽取数据集_完整标注版

    2026年1月23日 30 73 20

    数据集概述 本数据集是针对孟加拉语关系抽取任务构建的专用数据集,基于结构化知识库和标注语料的理论框架生成。包含63,256条条目组成的孟加拉语知识库(KB)、90,441条带命名实体识别(NER)和词性标注(POS)的文本语料,以及440个孟加拉语地点助记符,可直接用于关系抽取任务。 文件详解 location_mnemonics.xlsx...
    packageimg
  • ARAFA_Generated_Based_阿拉伯语大规模事实核查数据集

    2026年1月21日 30 144 83

    数据集概述 本数据集是面向阿拉伯语自然语言处理的大规模事实核查数据集ARAFA,通过大语言模型自动化框架构建,包含181,976条标注为支持、反驳或信息不足的主张-证据对,可用于阿拉伯语自动事实核查模型训练与评估。 文件详解 文件名称:ARAFA.json 文件格式:JSON...
    packageimg
  • 低资源语言数据集_基于肯尼亚本土语言与斯瓦希里语的平行语料库_v1_0_0

    2026年1月21日 30 193 147

    数据集概述 本数据集包含肯尼亚三种本土语言(Kidaw'ida、Kalenjin、Dholuo)与斯瓦希里语的平行语料库,每种语料库平均含三万句对,用于训练机器翻译模型,支持斯瓦希里语与本土语言间的翻译,由USIU-Africa等机构研究者创建,将持续更新优化。 文件详解 文件名称:waleghwa/low-resource-language-...
    packageimg