古典藏文-英文翻译数据集

古典藏文-英文翻译数据集 数据来源:互联网公开数据
标签:古典藏文,英文翻译,机器翻译,语料库,语言学研究,MT模型训练

数据概述:
本数据集包含古典藏文句子及其对应的英文翻译,每对数据由古典藏文句子和其英文翻译组成。数据集中的文本来源于Lotsawa House,并在相同的许可协议下提供。数据经过抓取、清洗和格式化处理,但由于从多种翻译结构中整理数据的难度较大,数据质量中等,适用于概念验证建模。
数据以两种形式提供:一是包含单个“translation”列的Pickle格式Pandas数据框,每条记录为一个包含“bo”(藏文文本)和“en”(英文翻译)键的Python字典;二是包含“bo”(藏文文本)和“en”(英文翻译)两列的CSV文件。数据结构模仿了OPUS书籍数据集,以便与现有机器翻译教程代码兼容。

数据用途概述:
该数据集适用于机器翻译模型的训练、语言学研究以及跨语言检索系统的开发。研究人员和开发者可以利用此数据集训练古典藏文到英文的翻译模型,支持相关领域的学术研究和实际应用。此外,数据集也可用于教育和培训,帮助学习者理解和掌握古典藏文与英文之间的语言关系及翻译规律。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 44.7 MiB
最后更新 2025年4月17日
创建于 2025年4月17日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。