-
Kpelle_Mano_语半自发话语标注论文补充数据
2026年1月31日 30 155 63
数据集概述 本数据集为待评审论文的补充材料,包含Kpelle语和Mano语的半自发话语标注内容,提供一份结构化的语言数据文件,支持相关语言学研究与分析。 文件详解 文件名称:all_data_submission.xlsx 文件格式:XLSX...
-
Source_Concepts_Based非洲语言源概念研究数据
2026年1月28日 30 182 181
数据集概述 本数据集是论文“Mouths, tongues, and ears: Source concepts for 'language' across Africa”配套的Excel表格数据,包含非洲语言中“语言”相关源概念的研究数据,共1个文件,用于支撑非洲语言概念系统的分析研究。 文件详解...
-
Fongbe_Speech_Dataset_贝宁Fongbe语言语音数据集
2026年1月21日 30 170 57
数据集概述 本数据集为贝宁主要使用的Fongbe语言语音数据集,包含语音音频文件、对应转录文本、数据集文档及元数据文件,用于支持Fongbe语言相关的语音技术研究与应用开发。 文件详解 压缩包文件 文件名称:Fongbe_Speech_Dataset.zip 文件格式:ZIP 字段映射介绍:压缩包内包含三个核心部分:...
-
Alpha_Bantu_Tone_1_班图语声调研究文献数据库_第一版
2026年1月22日 30 5 3
数据集概述 本数据集是班图语声调研究的文献数据清单,为班图语声调研究提供主要描述性资料来源,是该数据库Alpha版本的第一版。数据集包含一个压缩文件,可用于班图语声调语言学研究的文献检索与参考。 文件详解 文件名称:AlphaBantuDatabase-1.zip 文件格式:ZIP...
-
低资源语言数据集_基于肯尼亚本土语言与斯瓦希里语的平行语料库_v1_0_0
2026年1月21日 30 84 4
数据集概述 本数据集包含肯尼亚三种本土语言(Kidaw'ida、Kalenjin、Dholuo)与斯瓦希里语的平行语料库,每种语料库平均含三万句对,用于训练机器翻译模型,支持斯瓦希里语与本土语言间的翻译,由USIU-Africa等机构研究者创建,将持续更新优化。 文件详解 文件名称:waleghwa/low-resource-language-...
-
Alpha_Bantu_Tone_2_班图语声调研究主要描述性来源文献目录数据_V2
2026年1月18日 30 175 169
数据集概述 本数据集为班图语声调研究的文献目录数据,是数据库Alpha版本的第二版,收录了班图语声调研究的主要描述性来源文献信息,为语言学研究提供结构化的文献参考资料,包含1个压缩文件。 文件详解 文件名称:AlphaBantuDatabase-2.zip 文件格式:ZIP...
-
Polyglotta_Africana_Based_非洲语言词汇比较数据集_v2_1
2026年1月14日 30 86 48
数据集概述 本数据集基于Koelle 1854年的《Polyglotta Africana》,包含非洲一百多种语言中近三百个词汇和短语的比较词汇表,以CLDF格式整理,为非洲语言比较研究提供结构化资源。 文件详解 文件名称:lexibank/polyglottaafricana-v2.1.zip 文件格式:ZIP(压缩包)...
-
Linguistics_Supplementary_Material_西北班图语性别系统分类研究补充材料
2025年12月31日 30 33 7
数据集概述 本数据集是发表于《语言学》期刊的论文《西北班图语性别系统分类》的补充材料,包含一份压缩文件,用于支持论文中关于西北班图语性别系统分类研究的详细内容展示。 文件详解 文件名称:Supplemental_Information.zip 文件格式:ZIP...
-
Kleinewillinghöfer_Based_Bikwin_Jen语言比较词表CLDF数据集2015
2025年12月31日 30 83 59
数据集概述 本数据集是基于Kleinewillinghöfer于2015年发布的《Bikwin-Jen Comparative Wordlist》构建的CLDF格式数据集,包含Bikwin-Jen语言组的词汇比较信息,为语言比较研究提供结构化数据支持。 文件详解 主文件...
-
Umsuka英语_祖鲁语平行语料库
2025年12月8日 30 173 86
数据集概述 该数据集是开源高质量英语-祖鲁语平行语料库,涵盖南非本土及国际英语语境,由专业译者翻译构建。包含10000组平行句对(各5000组双向翻译),并从每组中分离1000组作为评估集,祖鲁语评估集经双重翻译以计算人类水平BLEU分数。 文件详解 训练数据文件(CSV格式): zu-en.training.csv:祖鲁语-...
-
朱拉语词汇数据2019年1月
2025年12月14日 30 146 56
数据集概述 本数据集包含2019年1月在布基纳法索西部收集的朱拉语词汇数据,共涉及六十二条词汇。数据采用综合国家标准的音位正字法记录,并标注声调,为朱拉语语言学研究提供基础资料。 文件详解 词汇数据文件(LexiquePro导出): lexicon_2019-01_burkina.lift:LIFT...
-
班图语族词汇多样性个体视角研究论文补充材料
2025年12月12日 30 58 11
数据集概述 本数据集为论文《Bantoid lexical diversity from an individual-based perspective》的补充材料,包含支持该研究的相关数据与代码,以压缩包形式提供,为理解班图语族词汇多样性的个体视角分析提供辅助资料。 文件详解 文件名称: GoodEtAl-...
-
基尼亚卢旺达语预训练与微调数据集-kclaude
2025年5月28日 30 199 95
基尼亚卢旺达语预训练与微调数据集-kclaude 数据来源:互联网公开数据 标签:基尼亚卢旺达语,自然语言处理,数据集,预训练,微调,语言模型,文本数据,非洲语言 数据概述: 该数据集包含了用于基尼亚卢旺达语自然语言处理任务的预训练和微调数据。主要特征如下: 时间跨度:数据记录的时间范围没有明确限制,数据集持续更新,涵盖不同时期的文本资料。...
-
非洲语音识别数据集Intron-AFriSpeech-CSVDataset-hasninasri
2025年5月28日 30 180 109
非洲语音识别数据集Intron-AFriSpeech-CSVDataset-hasninasri 数据来源:互联网公开数据 标签:语音识别,非洲语言,数据集,语音处理,自然语言处理,机器学习,声学模型,语音信号 数据概述: 该数据集包含来自非洲地区的语音数据,旨在用于非洲语言的语音识别研究。主要特征如下:...
-
斯瓦希里语语料库数据集-kariukiandrew
2025年5月11日 30 11 3
斯瓦希里语语料库数据集-kariukiandrew 数据来源:互联网公开数据 标签:斯瓦希里语,语料库,自然语言处理,文本分析,语言学,机器翻译,文本挖掘,非洲语言 数据概述: 该数据集包含斯瓦希里语文本语料,旨在为自然语言处理和语言学研究提供资源。主要特征如下: 时间跨度:数据涵盖不同时期和来源的斯瓦希里语文本。...
-
阿姆哈拉语文本数据集AmharicDataDataset-azzaal
2025年4月26日 30 13 9
阿姆哈拉语文本数据集AmharicDataDataset-azzaal 数据来源:互联网公开数据 标签:阿姆哈拉语,文本数据,数据集,语言处理,自然语言处理,机器学习,多语言,非洲语言 数据概述: 该数据集包含来自公开来源的阿姆哈拉语文本数据,记录了阿姆哈拉语的文本内容。主要特征如下: 时间跨度:数据记录的时间范围不明确,可能涵盖多个时间段。...
-
基尼瓦尔语对话数据集KinyarwandaConversationDatasets-iranzidev
2025年4月25日 30 188 105
基尼瓦尔语对话数据集KinyarwandaConversationDatasets-iranzidev 数据来源:互联网公开数据 标签:基尼瓦尔语,对话数据,自然语言处理,语音识别,多语言,机器学习,语言资源,非洲语言 数据概述: 该数据集包含来自基尼瓦尔语(卢旺达官方语言之一)的对话数据,记录了基尼瓦尔语的口语交流内容。主要特征如下:...
-
斯瓦希里语情感分析数据集SwahiliSentimentDataset-alfaxadeyembe
2025年4月25日 30 118 78
斯瓦希里语情感分析数据集SwahiliSentimentDataset-alfaxadeyembe 数据来源:互联网公开数据 标签:情感分析,自然语言处理,数据集,机器学习,语言技术,非洲语言,文本挖掘,多语言处理 数据概述: 该数据集包含来自斯瓦希里语的文本数据,记录了不同文本内容的情感倾向。主要特征如下:...
-
斯瓦希里语新闻分类数据集
2025年4月16日 30 199 52
斯瓦希里语新闻分类数据集 数据来源:互联网公开数据 标签:斯瓦希里语,新闻分类,自然语言处理,NLP,非洲语言,语言保护,文本分析,多语言数据 数据概述:...



