加泰罗尼亚语_中文平行句子机器翻译评估数据集_测试版

数据集概述

本数据集包含来自加泰罗尼亚语维基新闻、加泰罗尼亚语维基百科和西班牙语维基导游的平行句子,共一千零二十二条。数据涵盖加泰罗尼亚语、西班牙语及对应的GPT-4生成中文翻译和人工修订中文翻译,覆盖科学技术、文化、经济等十大主题,可用于机器翻译模型评估与强化学习人类偏好数据研究。

文件详解

  • 文件名称:test.json
  • 文件格式:JSON
  • 字段映射介绍:
  • id:数据条目唯一编号(1-1022)
  • article_id:源文章标识符(1-296)
  • sentence_id:文章内句子标识符(1-5)
  • URL:维基媒体平台原文链接
  • domain:句子来源(加泰罗尼亚语维基新闻/维基百科、西班牙语维基导游)
  • topic:主题分类(含科学技术、文化、法律等十大类)
  • sentence_ca:加泰罗尼亚语句子
  • sentence_es:西班牙语句子
  • sentence_zh_gpt:GPT-4生成的简体中文翻译
  • sentence_zh_human:人工修订的简体中文翻译

数据来源

Catalan Wikinews、Catalan Wikipedia、Spanish Wikivoyage

适用场景

  • 机器翻译模型评估:用于加泰罗尼亚语-中文双向及多语言机器翻译模型的基准测试
  • 强化学习人类偏好研究:作为人类修订与机器翻译对比的偏好数据
  • 小语种翻译资源补充:支持加泰罗尼亚语与中文翻译技术的开发
  • 多语言语料库研究:分析加泰罗尼亚语、西班牙语、中文的句子平行特征
  • 主题分类翻译应用:针对科技、经济、文化等主题的翻译模型优化
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.88 MiB
最后更新 2026年1月31日
创建于 2026年1月31日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。