WMT16_Based_Medline生物医学翻译任务平行语料数据集

数据集概述

本数据集为WMT'16生物医学翻译任务提供的平行语料,源自Medline/PubMed数据库,包含西班牙语-英语、法语-英语、葡萄牙语-英语三种语言对的平行文本数据,支持生物医学领域的机器翻译模型训练与评估。

文件详解

  • 文件名称:pubmed_en_pt.txt.zip
  • 文件格式:ZIP
  • 字段映射介绍:包含英语-葡萄牙语生物医学平行文本数据
  • 文件名称:pubmed_en_es.txt.zip
  • 文件格式:ZIP
  • 字段映射介绍:包含英语-西班牙语生物医学平行文本数据
  • 文件名称:pubmed_en_fr.txt.zip
  • 文件格式:ZIP
  • 字段映射介绍:包含英语-法语生物医学平行文本数据

数据来源

Medline/PubMed数据库(https://pubmed.ncbi.nlm.nih.gov/

适用场景

  • 生物医学机器翻译模型训练: 用于训练西班牙语、法语、葡萄牙语与英语之间的生物医学文本翻译模型
  • 翻译任务性能评估: 作为WMT'16生物医学翻译任务的基准数据集,评估翻译模型性能
  • 跨语言生物医学信息检索: 支持不同语言生物医学文献的跨语言检索与整合
  • 医学术语翻译研究: 分析生物医学专业术语在不同语言间的翻译规律与一致性
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 55.1 MiB
最后更新 2026年1月25日
创建于 2026年1月25日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。