Hinglish印地语-英语混合语机器翻译数据集

Hinglish印地语-英语混合语机器翻译数据集 数据来源:互联网公开数据 标签:机器翻译,文本生成,代码混合语言,Hinglish,印地语,英语,自然语言处理,语言学,数据集

数据概述: 本数据集(HinGE)旨在促进代码混合语言,特别是 Hinglish(印地语和英语的混合)的自然语言生成研究。数据集包含由人类生成的 Hinglish 句子,以及两个基于规则的算法生成的 Hinglish 句子,这些句子对应于平行印地语-英语句子。数据集的构建是为了应对代码混合语言中高质量资源匮乏的挑战,使得在代码混合语言环境下进行文本生成和评估成为可能。

数据用途概述: 该数据集主要用于机器翻译、文本生成和语言评估研究。研究人员可以利用该数据集开发和评估 Hinglish 翻译系统,研究代码混合语言的文本生成模型,并探索适用于代码混合语言的评估指标。此外,该数据集也为研究人员提供了评估现有文本生成评估指标在代码混合语言中的有效性的机会。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 1.51 MiB
最后更新 2025年4月14日
创建于 2025年4月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。