数据集

巴马腊法语平行语料库数据集-ozaresearch1

巴马腊法语平行语料库数据集-ozaresearch1 数据来源：互联网公开数据标签：巴马腊,法语,平行语料库,机器学习,翻译,文本生成,语言分析

数据概述：巴马腊法语平行语料库数据集是一个全面的资源，适用于各种需要平行文本数据的机器学习项目，包括但不限于翻译、文本生成和语言分析。该数据集包含46,976条对齐的句子，为研究者和开发人员提供了一个宝贵的工具，特别是那些专注于巴马腊和法语语言配对的研究人员。

巴马腊，又称巴曼坎或巴曼纳，是西非广泛使用的交际和商业语言之一，也是马里的官方语言之一。作为曼德语族的一员，巴马腊属于主要的语种群体之一，即曼丁戈语群。该群体包括科特迪瓦和布基纳法索的迪乌拉语、塞内加尔和冈比亚的曼丁卡语以及几内亚的曼因卡语。根据世界数据，巴马腊不是上述任何国家的官方语言，但作为母语被一小部分人口使用。在马里，大约46%的公民以巴马腊为母语，全球范围内约有1500万人将巴马腊作为母语。

数据来源该数据集中的句子均精心编译自巴马腊参考语料库，涵盖包括期刊、书籍、短篇小说、博客文章以及圣经和古兰经等宗教文本的精选段落的多样来源。文本涵盖了广泛的主题，为训练和测试机器学习模型提供了丰富的语言多样性。

数据集组成数据集以多种文件格式提供，以满足不同的研究需求和偏好： - bambara-french-parallel.csv：这是主要的数据集格式文件，旨在确保数据的易访问性和可操作性。数据采用UTF-8编码，并应用引号处理特殊字符。 - bambara-french-parallel.feather：对于偏好二进制格式的用户，Feather版本的数据集提供快速、高效的加载和保存功能，适合需要高速处理的数据科学研究项目。 - bambara-french-parallel.json：JSON版本提供了一种易于现代技术栈集成的结构化格式，便于Web应用程序和服务的使用。 - text.bam：一个纯文本文件，包含所有巴马腊句子，每行一个句子。这个文件是生成平行数据集的基础资源。 - text.fr：类似于text.bam，该文件包含数据集中的所有法语句子，每行一个句子，为语言处理任务提供了简单的资源。

来源库数据集的源文件，包括text.bam和text.fr，来源于RobotsMali-AI Datasets的GitHub仓库。这些文件在构建平行数据集时发挥了关键作用，通过细致地将每一行映射到其对应的翻译。

使用建议为了获得最佳使用效果，建议使用Feather或JSON版本的数据集。这些格式避免了CSV文件中引号处理的复杂性，为研究人员和开发人员提供了更流畅的数据处理体验。

数据与资源

versions_20250411032315.zipZIP
21.50 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	21.5 MiB
最后更新	2025年4月23日
创建于	2025年4月23日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

巴马腊法语平行语料库数据集-ozaresearch1

数据与资源

附加信息

注册成功！