Contradictory-MyDearWatson英文翻译数据集-2023-anikok

Contradictory-MyDearWatson英文翻译数据集-2023-anikok 数据来源:互联网公开数据 标签:Contradictory,My Dear Watson,英语翻译,自然语言处理,数据集,翻译,多语言,不平衡数据

数据概述: 本数据集是Contradictory, My Dear Watson竞赛的扩展版本,包含了原始多语言数据的英文翻译。在数据集创建时,现有基于Google Translate的Python包(如googletrans、deep-translator)由于最近的更新已无法正常使用,而google_tans_new虽然可以工作,但实时翻译速度极慢。因此,本数据集对原始数据进行了英文翻译处理,特别适用于教育和研究目的。

数据集包含两个文件:

train_en.csv:该文件包含了ID、前提、假设、标签、原文语种及其两字母缩写,对于所有非英文条目,增加了假设和前提的英文翻译。 test.csv:该文件包含了ID、前提、假设、原文语种及其两字母缩写,但没有标签,对于所有非英文条目,增加了假设和前提的英文翻译。

数据集中的翻译旨在解决原始数据集中存在的类别不平衡问题,通过将所有文本转化为英语作为“中间语言”,实现了以下目标:

  1. 消除了一个维度的数据分层(语言)
  2. 减少了特征空间(字符、符号和词形)
  3. 可以使用英语特定的预处理工具(如WordNet词形还原器)
  4. 可以使用非多语言模型进行训练

此外,数据集还展示了其他研究人员使用的数据增强方法(如在各种语言之间进行交叉翻译)的潜力。

数据用途概述: 该数据集适用于自然语言处理、多语言数据处理、不平衡数据处理、文本翻译等研究场景。研究人员可以利用该数据集进行多语言模型的训练和评估、类别不平衡问题的解决、文本翻译技术的探索等。教育工作者也可以利用此数据集进行自然语言处理课程的教学。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 2.35 MiB
最后更新 2025年4月22日
创建于 2025年4月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。