找到47个数据集

标签: 文本对齐

过滤结果
  • HornMT_Based_非洲之角多语言机器翻译基准平行语料数据集

    2026年1月27日 30 191 126

    数据集概述 本数据集是针对非洲之角语言的机器翻译基准平行语料库,包含阿法尔语、阿姆哈拉语、英语、奥罗莫语、索马里语、提格雷尼亚语6种语言的新闻片段平行文本,以及每条文本对应的元数据(如新闻范围、类别、来源等),支持多语言机器翻译研究与系统开发。 文件详解 核心数据文件 目录名称:data/...
    packageimg
  • WMT17_Based_生物医学翻译任务Scielo测试与黄金数据集

    2026年1月27日 30 13 9

    数据集概述 本数据集为第二届机器翻译会议(WMT'17)生物医学翻译任务的测试与黄金数据集,包含测试文件、黄金文件及使用GMA工具生成的自动对齐文件,数据来源于Scielo数据库,以压缩包形式提供。 文件详解 文件名称:wmt17-biomedical-scielo.zip 文件格式:ZIP 字段映射介绍:压缩包内包含三类文件:测试文件(Test...
    packageimg
  • TPDL_2020_Based_古籍OCR噪声命名实体识别评估基准数据

    2026年1月26日 30 189 183

    数据集概述 本数据集为古籍命名实体识别(NER)评估基准数据,基于CoNLL-02(西班牙语、荷兰语)和CoNLL-03(英语)NER语料库,通过模拟OCR噪声生成多语言含噪文本,包含原始文本转图像、添加扫描噪声、Tesseract OCR提取及文本对齐等处理环节,用于评估OCR质量对NER任务的影响。 文件详解 文件名称:ner_dataset-...
    packageimg
  • PAN13_Text_Alignment_原创性检测_文本复用识别训练语料

    2026年1月21日 30 28 22

    数据集概述 本数据集为PAN13项目的文本对齐原创性检测训练语料,包含成对文档数据,其中一方可能复用另一方文本,且复用文本经自动混淆处理以隐藏复用痕迹。数据集用于支持自然语言处理领域的文本原创性检测研究,仅含一个压缩文件。 文件详解 文件名称:pan13-text-alignment-test-and-training.zip 文件格式:ZIP...
    packageimg
  • Chinese_Speech_to_Text_Based中文学习者语音样本与转录数据

    2026年1月18日 30 197 78

    数据集概述 本数据集包含31名学习者的中文语音样本(单词语音),以及对应的转录文本和准确率评分,用于支持中文语音转文字相关的研究与应用。数据集仅包含一个文件,无训练/测试、数据/标签或原始/处理数据的划分。 文件详解 文件名称:Dataset Chinese Speech to Text.xlsx 文件格式:XLSX...
    packageimg
  • 德累斯顿宫廷日记1673年手写文本识别基准数据集

    2025年12月19日 30 122 57

    数据集概述 本数据集包含1673年《德累斯顿选帝侯约翰·格奥尔格二世宫廷日记》的二十页手写文本基准数据,采用17世纪末萨克森典型楷书体书写,偶见混合字体。提供与原始图像对齐的转录文本及元数据,支持手写文本识别模型训练与评估。 文件详解 该数据集包含三类文件,具体说明如下: - 图像文件(20个): - 文件格式:JPG(.jpg) -...
    packageimg
  • 古希腊语与葡萄牙语翻译对齐标准与黄金标准数据集

    2025年12月18日 30 181 18

    数据集概述 本数据集包含古希腊语文本与葡萄牙语翻译对齐的指导标准及黄金标准数据,基于古希腊语-英语对齐指南改编,由领域专家使用Ugarit工具完成对齐,可支持相关文本对齐任务、数据集构建或自动化模型训练。 文件详解 文件名称:grc.txt 文件格式:.txt 内容说明:原始古希腊语文本文件 文件名称:por.txt 文件格式:.txt...
    packageimg
  • 金融新闻文本挖掘平行语料库数据集2007_2020

    2025年12月15日 30 186 170

    数据集概述 本数据集为金融领域的英汉平行新闻语料库,包含2007至2020年的60,473篇双语文档,涵盖新闻的标题、正文等核心内容,可用于金融领域的平行双语文本挖掘研究。 文件详解 文件名称:FT-en-zh.rar 文件格式:RAR压缩包...
    packageimg
  • PAN14文本对齐原创性测试语料库2014

    2025年12月9日 30 139 131

    数据集概述 本数据集为PAN14任务提供的测试语料库,包含文档对数据,其中部分文档可能存在经自动混淆处理的复用文本,用于研究文本原创性检测及对齐问题。 文件详解 文件名称: pan14-text-alignment-test-corpus3-2014-05-14.zip 文件格式: ZIP压缩包 内容说明:...
    packageimg
  • 乌克兰十四音节诗在白俄罗斯诗歌中的翻译与模仿韵律数据集

    2025年12月7日 30 31 7

    数据集概述 本数据集围绕乌克兰十四音节诗在白俄罗斯诗歌中的翻译与模仿韵律展开,包含舍甫琴科乌克兰语原作及白俄罗斯语译本、库帕拉等白俄罗斯诗人原作的文本、元数据、统计报告及分析代码,为研究诗歌韵律跨语言传播提供支持。 文件详解 文本文件(压缩包):...
    packageimg
  • 尼泊尔语_英语平行语料库数据集

    2025年11月10日 30 41 15

    尼泊尔语_英语平行语料库数据集_Nepali_English_Parallel_Corpus_Dataset 数据来源:互联网公开数据 标签:机器翻译, 语料库, 尼泊尔语, 英语, 自然语言处理, 文本对齐, 语言学, 双语文本 数据概述:...
    packageimg
  • 欧盟多语言翻译文本数据集

    2025年10月1日 30 140 126

    欧盟多语言翻译文本数据集_Multilingual_Translation_Text_Dataset 数据来源:互联网公开数据 标签:机器翻译, 文本翻译, 语言学, 文本数据, 英语, 西班牙语, 意大利语, 文本对齐 数据概述: 该数据集包含来自欧盟官方文档的翻译文本,记录了英语与西班牙语、英语与意大利语之间的对应翻译。主要特征如下:...
    packageimg
  • 机器翻译文本对数据集

    2025年7月21日 30 77 35

    机器翻译文本对数据集_Machine_Translation_Text_Pairs 数据来源:互联网公开数据 标签:机器翻译, 文本对齐, 语言学, 文本翻译, 英语, 葡萄牙语, 自然语言处理, 双语语料库 数据概述: 该数据集包含来自互联网的翻译文本对,记录了英语与葡萄牙语之间的句子翻译实例,适用于机器翻译模型的训练与评估。主要特征如下:...
    packageimg
  • 可兰经诵读者多样性数据集

    2025年6月1日 30 105 90

    可兰经诵读者多样性数据集 数据来源:互联网公开数据 标签:性别多样性,可兰经,诵读风格,语音识别,文本对齐,语音分析 数据概述:...
    packageimg
  • 多语言平行文本翻译质量评估数据集MultilingualParallelTextTranslationQualityAssessment-danghoan...

    2025年5月31日 30 105 47

    多语言平行文本翻译质量评估数据集MultilingualParallelTextTranslationQualityAssessment-danghoangthai1507 数据来源:互联网公开数据 标签:机器翻译, 文本翻译, 质量评估, 语料库, 翻译质量, 自然语言处理, 文本对齐, 深度学习 数据概述:...
    packageimg
  • 越南语-西班牙语平行语料数据集Vietnamese-SpanishParallelCorpus-duy52000751

    2025年5月30日 30 127 113

    越南语-西班牙语平行语料数据集Vietnamese-SpanishParallelCorpus-duy52000751 数据来源:互联网公开数据 标签:机器翻译, 平行语料, 越南语, 西班牙语, 语言学, 自然语言处理, 语料库, 文本对齐 数据概述: 该数据集包含越南语和西班牙语的平行文本对,记录了两种语言的对应翻译示例。主要特征如下:...
    packageimg
  • 多语言维基百科内容翻译对照数据集MultilingualWikipediaContentTranslationDataset-bamps53

    2025年5月30日 30 125 53

    多语言维基百科内容翻译对照数据集MultilingualWikipediaContentTranslationDataset-bamps53 数据来源:互联网公开数据 标签:机器翻译, 文本翻译, 多语言, 维基百科, 自然语言处理, 文本对齐, 语料库, 语言学 数据概述:...
    packageimg
  • 尼泊尔语-英语机器翻译训练数据集Nepali-EnglishMachineTranslationTrainingDataset-prashimagurung

    2025年5月18日 30 193 17

    尼泊尔语-英语机器翻译训练数据集Nepali-EnglishMachineTranslationTrainingDataset-prashimagurung 数据来源:互联网公开数据 标签:机器翻译, 尼泊尔语, 英语, 文本对齐, 自然语言处理, 语言模型, 双语语料库, 数据集 数据概述: 该数据集包含来自多种来源的尼泊尔语-...
    packageimg
  • 英俄平行语料翻译数据集English-RussianParallelTranslationDataset-user17234

    2025年5月14日 30 88 43

    英俄平行语料翻译数据集English-RussianParallelTranslationDataset-user17234 数据来源:互联网公开数据 标签:机器翻译, 语料库, 自然语言处理, 文本对齐, 语言学, 俄语, 英语, 语言模型 数据概述: 该数据集包含来自互联网的英俄平行语料,记录了英语句子及其对应的俄语翻译。主要特征如下:...
    packageimg
  • 印地语-英语平行语料库数据集Hindi-EnglishParallelCorpus-saumyamishra536

    2025年5月12日 30 154 88

    印地语-英语平行语料库数据集Hindi-EnglishParallelCorpus-saumyamishra536 数据来源:互联网公开数据 标签:机器翻译, 文本对齐, 语言模型, 印度语言, 语料库, 自然语言处理, 双语数据, 英语 数据概述: 该数据集包含来自互联网的印地语-...
    packageimg