电影字幕多语言平行数据集

电影字幕多语言平行数据集

数据来源:互联网公开数据

标签:电影字幕,多语言平行数据,英语到阿拉伯语,英语到法语,英语到印度尼西亚语,英语到泰语,时间对齐,机器翻译,自然语言处理

数据概述: 本数据集包含来自Subscene.com的多语言平行字幕文件,涵盖四种语言对:英语到阿拉伯语、英语到法语、英语到印度尼西亚语和英语到泰语。每个电影对应一个文件夹,内含两个CSV文件。"parallel_line_by_line"文件中,每行包含英语和另一种语言的字幕内容;"parallel_time_based"文件中,每行则包含电影一分钟内的所有字幕及其翻译。数据集还包括一个Jupyter Notebook,用于网络爬取、收集和对齐这些字幕文件。

数据用途概述: 该数据集适用于多种场景,包括机器翻译模型的训练、跨语言信息检索、字幕生成与对齐,以及自然语言处理研究。研究人员和开发者可以利用此数据集进行语言模型的开发和测试,提升多语言内容处理的能力,同时支持跨文化内容的传播与理解。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 135.01 MiB
最后更新 2025年4月20日
创建于 2025年4月20日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。