数据集概述
本数据集为非洲19种语言的单语种新闻语料库,来源包括VOA、BBC、Isolezwe等平台及项目。数据由不同来源整合而成,涉及多种非洲本土语言,总计包含20个文件,均为压缩格式,无目录层级结构。
文件详解
- 压缩文件包
- 文件名称:包含kin.zip、wol.zip、pcm.zip、som.zip、lug.zip、nya.zip、swa.zip、kin_run_mixed.zip等20个文件
- 文件格式:ZIP
- 字段映射介绍:未提供具体字段信息,文件为非洲19种语言的新闻语料压缩包,无训练/测试、数据/标签、原始/处理数据的划分
数据来源
整合自AfriBERTa语料库、MOT语料库、Lacuna NER/POS项目、AI4D论文、Jonathan Mukiibi提供的lug新闻语料及MAFT论文相关来源
适用场景
- 非洲多语言自然语言处理研究: 用于非洲语言的预训练模型开发、文本分类、命名实体识别等任务
- 跨语言新闻分析: 支持对非洲不同语言新闻内容的主题、情感等维度的跨语言比较分析
- 非洲语言资源建设: 补充非洲本土语言的语料资源,推动低资源语言的自然语言处理技术发展
- 新闻传播研究: 分析非洲不同地区、语言的新闻传播内容及特征