英语-马拉雅拉姆语言翻译数据集-nihalthomas15

英语-马拉雅拉姆语言翻译数据集-nihalthomas15 数据来源:互联网公开数据 标签:英语,马拉雅拉姆,机器翻译,NLP,语料库,翻译,数据集,多语言

数据概述: 本数据集包含英语和马拉雅拉姆之间的平行文本数据,适用于语言翻译任务。数据来源于两个主要资源:Orpus语料库和Tatoeba项目。每个数据条目包含两行信息,一行是英语句子,另一行是对应的马拉雅拉姆翻译。

数据格式: 数据集以CSV格式提供,包含两列:

English: 英语句子。 Malayalam: 对应的马拉雅拉姆翻译句子。

每行代表一对用于翻译的句子。

数据示例: English: "Hello, how are you?" Malayalam: "ഹലോ, എങ്ങനെ ഇരിക്കുന്നു?"

English: "I am learning to code." Malayalam: "ഞാൻ കോഡിങ് പഠിക്കുന്നു."

数据来源: Orpus: 一个多语言语料库集合,包含用于翻译和其他语言研究的多种文本。更多信息请访问Orpus网站。 Tatoeba: Tatoeba项目的大规模句子和翻译集合,专注于自然语言和多语言句子对。更多详情请访问Tatoeba网站。

数据用途概述: 该数据集可用于:

训练英语-马拉雅拉姆翻译任务的机器学习模型。 对预训练模型(如基于Transformer的模型、RNN等NLP模型)进行微调。 评估机器翻译系统的性能。

数据集统计信息: 总句子对数:1644 语言:英语, 马拉雅拉姆 文件格式:CSV(逗号分隔值)

许可: 该数据集在[插入许可信息]许可下发布。您可以在遵守来源平台条款的前提下,用于学术、研究和非商业目的。 致谢: Orpus: Orpus网站 Tatoeba: Tatoeba网站

请自由使用和修改本数据集用于您的翻译相关研究或项目!

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 0.05 MiB
最后更新 2025年4月22日
创建于 2025年4月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。