数据集

多语言平行语料库数据集

多语言平行语料库数据集数据来源：互联网公开数据
标签：多语言,平行语料库,翻译,机器翻译,自然语言处理,跨语言数据分析
数据概述：
本数据集是一个多语言平行语料库，包含英语与其他多种语言（如俄语、哈萨克语、西班牙语、意大利语和法语）之间的对照翻译数据。数据集来源于对原始的databricks-dolly-15k.jsonl文件的多语言翻译，使用googletrans库进行处理。由于翻译过程中部分数据丢失，最终保留了部分数据。数据集以CSV格式存储，每条记录包含一个唯一标识符（uid）和对应语言的翻译文本。
数据用途概述：
该数据集适用于机器翻译模型的训练与评估、跨语言信息检索、多语言自然语言处理模型的预训练以及语言学研究。用户可以通过该数据集进行机器翻译质量评估、语言对齐研究、跨语言语义分析等。此外，数据集还支持多语言内容的生成与理解，为跨文化交流与技术开发提供数据支持。

数据与资源

多语言平行语料库数据集.zipZIP
63.02 MiB

下载

附加信息

字段	值
版本	1.0
数据集大小	63.02 MiB
最后更新	2025年4月19日
创建于	2025年4月19日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

多语言平行语料库数据集

数据与资源

附加信息

注册成功！