自然语言处理数据增强用反向翻译数据集

自然语言处理数据增强用反向翻译数据集 数据来源:互联网公开数据
标签:自然语言处理,数据增强,反向翻译,文本分类,多语言,数据集,机器学习,文本生成

数据概述:
本数据集包含了来自Contradictory, My Dear Watson竞赛训练数据集的反向翻译结果,旨在挑战机器学习实践者构建能够自动分类15种不同语言文本中句子对关系的系统。反向翻译通过将原始文本翻译成一种语言后再翻译回原始语言来生成新的合成数据,从而在保持输入文本上下文的同时产生不同的词汇表达。

数据用途概述:
该数据集适用于自然语言处理中的数据增强任务,特别是在低资源语言中扩展训练样本量。研究人员可以利用反向翻译生成更多训练数据,以提高模型的泛化能力。此外,该数据集还可以用于多语言文本分类系统的开发与评估,支持信息在多种语言环境下的共享与理解。

举例:
数据集中包含一个CSV文件,记录了每条数据的ID、前提句、假设句、标签,以及文本的语言及其对应的两位字母缩写。例如,一条记录可能包括以下内容:

ID: 1
前提句: The cat sat on the mat.
假设句: The cat was on the rug.
标签: entailment
语言: English
缩写: en

通过这种方式,数据集为开发多语言文本分类模型提供了丰富的训练资源。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 1.35 MiB
最后更新 2025年4月15日
创建于 2025年4月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。