African_News_Corpus_非洲19种语言新闻语料数据

数据集概述

本数据集为非洲19种语言的单语种新闻语料库,来源包括VOA、BBC、Isolezwe等平台及项目。数据由不同来源整合而成,涉及多种非洲本土语言,总计包含20个文件,均为压缩格式,无目录层级结构。

文件详解

  • 压缩文件包
  • 文件名称:包含kin.zip、wol.zip、pcm.zip、som.zip、lug.zip、nya.zip、swa.zip、kin_run_mixed.zip等20个文件
  • 文件格式:ZIP
  • 字段映射介绍:未提供具体字段信息,文件为非洲19种语言的新闻语料压缩包,无训练/测试、数据/标签、原始/处理数据的划分

数据来源

整合自AfriBERTa语料库、MOT语料库、Lacuna NER/POS项目、AI4D论文、Jonathan Mukiibi提供的lug新闻语料及MAFT论文相关来源

适用场景

  • 非洲多语言自然语言处理研究: 用于非洲语言的预训练模型开发、文本分类、命名实体识别等任务
  • 跨语言新闻分析: 支持对非洲不同语言新闻内容的主题、情感等维度的跨语言比较分析
  • 非洲语言资源建设: 补充非洲本土语言的语料资源,推动低资源语言的自然语言处理技术发展
  • 新闻传播研究: 分析非洲不同地区、语言的新闻传播内容及特征
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 198.45 MiB
最后更新 2026年1月27日
创建于 2026年1月27日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。