多语言平行语料库数据集

多语言平行语料库数据集 数据来源:互联网公开数据
标签:多语言,平行语料库,翻译,机器翻译,自然语言处理,跨语言数据分析
数据概述:
本数据集是一个多语言平行语料库,包含英语与其他多种语言(如俄语、哈萨克语、西班牙语、意大利语和法语)之间的对照翻译数据。数据集来源于对原始的databricks-dolly-15k.jsonl文件的多语言翻译,使用googletrans库进行处理。由于翻译过程中部分数据丢失,最终保留了部分数据。数据集以CSV格式存储,每条记录包含一个唯一标识符(uid)和对应语言的翻译文本。
数据用途概述:
该数据集适用于机器翻译模型的训练与评估、跨语言信息检索、多语言自然语言处理模型的预训练以及语言学研究。用户可以通过该数据集进行机器翻译质量评估、语言对齐研究、跨语言语义分析等。此外,数据集还支持多语言内容的生成与理解,为跨文化交流与技术开发提供数据支持。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 63.02 MiB
最后更新 2025年4月19日
创建于 2025年4月19日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。