找到60个数据集

标签: 低资源语言

过滤结果
  • KPAAMCAM_NTs_MUNKEN_Based_蒙肯语225词表词汇特征分析完整数据

    2025年12月18日   

    数据集概述 本数据集是一份包含225个词汇的蒙肯语词表,蒙肯语是喀麦隆西北部门丘姆省丰贡分区下属丰贡地区使用的一种声调语言,属于耶姆内-金比语族。词表记录了两位咨询人提供的词汇,存在个体词汇差异。 文件详解 文件名称: KPAAMCAM_NTs_MUNKEN-3NGT-4NUN_225Wordlist_20221-02-25.pdf 文件格式: PDF...
    packageimg
  • Umsuka英语_祖鲁语平行语料库

    2025年12月8日   

    数据集概述 该数据集是开源高质量英语-祖鲁语平行语料库,涵盖南非本土及国际英语语境,由专业译者翻译构建。包含10000组平行句对(各5000组双向翻译),并从每组中分离1000组作为评估集,祖鲁语评估集经双重翻译以计算人类水平BLEU分数。 文件详解 训练数据文件(CSV格式): zu-en.training.csv:祖鲁语-...
    packageimg
  • 帕皮阿门托语医疗环境关键词识别语音转文本数据集

    2025年12月16日   

    数据集概述 本数据集为帕皮阿门托语医疗环境下的关键词识别语音转文本研究开发,包含七个类别(六个关键词和一个未知类别)的语音样本,经过滤后共16766个样本,每个样本为一秒钟录音生成的频谱图,用于推动帕皮阿门托语关键词识别研究。 文件详解 文件名称:papiamento_keyword_spotting_dataset.zip...
    packageimg
  • KPAAMCAM_NTs_MASHI_4BAA_5NCM_Based_贝姆布尔诺Lower_Fungom_Mashi词汇表完整数据

    2025年12月15日   

    数据集概述 该数据集包含一份关于Mashi语言的225个词汇表文档。Mashi是一种属于Yemne-Kimbi语支的语言变体,主要分布在喀麦隆西北部Menchum区Fungom分区的Lower Fungom地区,为研究该语言的词汇特征提供基础数据。 文件详解 文件名称:...
    packageimg
  • Max_Planck_Archivo_DOBES_Nonuya_Based_2019版语言数据库词汇转录完整数据

    2025年12月14日   

    数据集概述 该数据集为Nonuya语言(ISO 639 noj,属于Witoto语系)的数据库,收录了1973至2007年间与四位母语者的8693条词汇及表达录音的转录文本,经修订后采用AFI符号转录,每条数据含特定标识符,便于语言分析引用。 文件详解 文件名称: NONUYA2019.pdf 文件格式: PDF (.pdf) 文件内容:...
    packageimg
  • 杜洪比语个人叙事转录解析与翻译文本数据集

    2025年12月14日   

    数据集概述 该数据集包含杜洪比语个人叙事的音频文件及配套文本文件,覆盖死亡故事、村庄历史、狩猎、饮酒、驱邪等主题,提供转录、解析、标注及翻译内容,对应《杜洪比语语法》中的文本材料。 文件详解 音频文件(.wav格式):包含5个CHUK编号开头的音频文件,对应各叙事主题的原始录音...
    packageimg
  • 捷克波西米亚历史文献转录超级模型数据集2024

    2025年12月14日   

    数据集概述 该数据集记录了2024年学生资助竞赛(SGS)项目中,学生团队基于Transkribus平台开发的捷克历史文献转录模型成果。包含训练集、验证集的错误率数据,多个学生开发的转录模型(如Finale 2.0、Agreg-8)及其字符错误率(CER),以及最终聚合模型CZECH...
    packageimg
  • 提格利尼亚语语言建模数据集TLMD_v1_0_0

    2025年12月13日   

    数据集概述 该数据集是为提格利尼亚语语言建模构建的单语种数据集,是同类数据中规模最大的提格利尼亚语数据集。数据经轻量清理,包含训练集(百分之九十八)和验证集(百分之二),支持自然语言处理研究。 文件详解 文件名称: tlmd_v1.0.0.zip 文件格式: ZIP压缩包 数据结构:...
    packageimg
  • 图皮语依存树库数据集

    2025年12月9日   

    数据集概述 本数据集是图皮语依存树库(TuDeT),包含一个压缩文件,提供图皮语语言资源,用于自然语言处理(NLP)相关研究,为图皮语的句法分析提供数据支持。 文件详解 文件名称: tupian-language-resources/tudet-v0.4.zip 文件格式: ZIP(压缩文件) 内容说明:...
    packageimg
  • 图卡诺语系Desano_Siriano_Yupua分支语音重建与分类数据集

    2025年12月7日   

    数据集概述 该数据集收录了来自Koch-Grünberg(1914)和Huber and Reed(1992)的词汇,通过历史比较法重建原始语言的语音系统,涉及Desano、Siriano、Yupua、Tanimuka和Yahuna五种语言,重建了四个原始语支,为图卡诺语系分支分类提供语音数据支持。 文件详解...
    packageimg
  • 博罗罗语语料库0_3版

    2025年12月6日   

    数据集概述 本数据集为博罗罗语语料库(CorBo)的0.3版本,包含更多数据、OLAC格式元数据及改进的标注内容,是一个语言研究领域的语料库资源。 文件详解 文件名称: LanguageStructure/Bororo-Corpus-v0.3.zip 文件格式: ZIP压缩包 内容说明: 压缩包内包含博罗罗语语料库的全部数据,具体内容需解压后查看。...
    packageimg
  • CT_FAN多语言假新闻检测数据集2022

    2025年12月5日   

    数据集概述 该数据集为多语言假新闻检测任务设计,包含2010-2022年英文和德文新闻文章,标注其真实性评级(假、部分假、真、其他)及主题领域,支持跨语言迁移学习研究,适用于构建多语言假新闻分类模型。 文件详解 文件名称:FakeNews_Task3_2022.zip 文件格式:ZIP压缩包 内部数据字段: ID:新闻文章唯一标识符...
    packageimg
  • 梵语词分割数据集

    2025年12月4日   

    数据集概述 该数据集针对梵语词分割任务构建,包含约十一万五千个句子,每个句子提供输入字符序列、真实分割结果及所有语音可能分割的词汇和形态信息,为梵语手稿的句法与语义处理提供基础数据支持。 文件详解 该数据集包含七个文件,具体说明如下: - 压缩文件: - DCS_pick.zip:压缩文件,可能包含实验相关的Pickle格式数据 -...
    packageimg
  • 宾夕法尼亚德语词表_词形还原与词性标注

    2025年12月4日   

    数据集概述 该数据集包含ENDE语料库中宾夕法尼亚德语部分的词表,涵盖1761个词元及其对应的2704个词形,已完成词形还原和词性标注,为宾夕法尼亚德语的语言分析提供基础数据。 文件详解 词表数据文件: 文件名称:ENDE-corpus POS-annotated PDC lexicon.tsv 文件格式:TSV(.tsv)...
    packageimg
  • 孟加拉语虚假新闻数据集

    2025年4月24日   

    孟加拉语虚假新闻数据集 数据来源:互联网公开数据 标签:孟加拉语,虚假新闻检测,自然语言处理,数据分类,机器学习,低资源语言,信息真实性评估 数据概述:...
    packageimg
  • 孟加拉语BERT语言模型预训练与基准测试数据集-reasat

    2025年4月23日   

    孟加拉语BERT语言模型预训练与基准测试数据集-reasat 数据来源:互联网公开数据 标签:孟加拉语,BERT,语言模型,自然语言处理,预训练,基准测试,低资源语言 数据概述:...
    packageimg
  • 多语言大规模多任务语言理解数据集

    2025年4月22日   

    多语言大规模多任务语言理解数据集 数据来源:互联网公开数据 标签:多语言,任务理解,人工智能,评测,翻译,低资源语言 数据概述:...
    packageimg
  • 贝罗姆语音数据集

    2025年4月18日   

    贝罗姆语音数据集 数据来源:互联网公开数据 标签:贝罗姆语,语音数据,低资源语言,语音识别,语言研究,文本转语音 数据概述:...
    packageimg
  • 缅甸农业知识库数据集

    2025年4月15日   

    缅甸农业知识库数据集 数据来源:互联网公开数据 标签:缅甸农业,自然语言处理,指令调优语言模型,低资源语言,农作物,园艺,化学农药,植物病理学,气候变化,有机肥料 数据概述:...
    packageimg
  • 约鲁巴语到英语机器翻译数据集

    2025年4月15日   

    约鲁巴语到英语机器翻译数据集 数据来源:互联网公开数据 标签:约鲁巴语,英语,机器翻译,低资源语言,自然语言处理,数据集,模型训练,多领域应用 数据概述:...
    packageimg