Umsuka英语_祖鲁语平行语料库

数据集概述

该数据集是开源高质量英语-祖鲁语平行语料库,涵盖南非本土及国际英语语境,由专业译者翻译构建。包含10000组平行句对(各5000组双向翻译),并从每组中分离1000组作为评估集,祖鲁语评估集经双重翻译以计算人类水平BLEU分数。

文件详解

  • 训练数据文件(CSV格式):
  • zu-en.training.csv:祖鲁语-英语训练数据,字段包括zu(祖鲁语句子)、en(英语句子)、source(数据来源)
  • en-zu.training.csv:英语-祖鲁语训练数据,字段结构同训练集
  • 评估数据文件(CSV格式):
  • zu-en.eval.csv:祖鲁语-英语评估数据,包含双向翻译的祖鲁语句子以计算BLEU分数
  • en-zu.eval.csv:英语-祖鲁语评估数据,字段同训练集
  • 说明文档:
  • Data Statement for Umsuka isiZulu Parallel Corpus.pdf:数据集说明文档,提供语料库构建方法、数据来源及使用规范

适用场景

  • 机器翻译模型训练:用于英语-祖鲁语双向机器翻译系统的训练与优化
  • 低资源语言处理研究:支持祖鲁语等形态复杂非洲语言的自然语言处理技术开发
  • 翻译质量评估:通过双重翻译评估集计算人类水平BLEU分数,验证机器翻译性能
  • 跨语言语料库语言学研究:分析英语与祖鲁语在不同语境下的语言转换规律
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 3.4 MiB
最后更新 2025年12月17日
创建于 2025年12月8日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。