找到10个数据集

标签: 跨语言检索

过滤结果
  • PeriodO_EAMENA_历史时期多语言数据库数据2021

    2026年1月28日 30 134 36

    数据集概述 本数据集由EAMENA项目于2021年创建,包含226个历史时期的多语言(英语和阿拉伯语)数据,托管于PeriodO LOD地名录,具有唯一ARK标识符。数据以单一JSON文件存储,无目录结构或数据拆分。 文件详解 文件名称:periodo-authority-m64td.json 文件格式:JSON...
    packageimg
  • iNaturalist_Taxonomy_物种分类学及俗名映射数据

    2026年1月27日 30 83 81

    数据集概述 本数据集包含iNaturalist分类学体系及其对应的多语言俗名信息,并提供与EOL动态分类层级的初步映射关系。数据基于iNaturalist官方分类学档案构建,以压缩包形式存储,为生物分类学研究和物种数据整合提供基础参考。 文件详解 文件名称:iNatTaxonomyVernaculars.zip 文件格式:ZIP(压缩包)...
    packageimg
  • WMT16_Based_Medline生物医学翻译任务平行语料数据集

    2026年1月25日 30 210 41

    数据集概述 本数据集为WMT'16生物医学翻译任务提供的平行语料,源自Medline/PubMed数据库,包含西班牙语-英语、法语-英语、葡萄牙语-英语三种语言对的平行文本数据,支持生物医学领域的机器翻译模型训练与评估。 文件详解 文件名称:pubmed_en_pt.txt.zip 文件格式:ZIP 字段映射介绍:包含英语-葡萄牙语生物医学平行文本数据...
    packageimg
  • Archaeology_Vocabulary_DEU_ENG_考古学德英双语术语对照数据

    2026年1月13日 30 133 22

    数据集概述 本数据集为德英双语考古学词汇表,涵盖田野考古、建筑、陶器、方法、防御工事等主题。词汇经学术翻译场景验证,部分含参考文献,部分无直接对应译文。原始术语库整合自SDL Multiterm 2015及2017版本,经OpenRefine 3.1清洗,包含5个文件。 文件详解 考古学词汇表文件(Excel格式)...
    packageimg
  • 科学与医学史十年期刊概览2015_2024

    2025年12月18日 30 62 28

    数据集概述 本数据集为2015-2024年科学与医学史领域的期刊概览,基于《医学史杂志》期刊概览内部数据库扩展而来,补充了34种期刊至2008年或更早的回溯数据及约60种国际期刊信息,未包含评论、讣告等辅助内容。 文件详解 文件名称: IntlZschau_4zenodo_final.pdf 文件格式: PDF (.pdf) 文件内容:...
    packageimg
  • 欧洲语言社会科学叙词表2024

    2025年12月22日 30 124 59

    数据集概述 该数据集为欧洲语言社会科学叙词表(ELSST),覆盖政治学、社会学等十余门核心社会科学学科,包含约三千四百个概念,由欧洲社会科学数据档案联盟及其服务提供商发布,用于跨语言、跨资源的数据发现与访问。 文件详解 文件名称:ELSST_R5.ttl,格式:TTL,RDF三元组格式的叙词表数据文件...
    packageimg
  • Objaverse_Josep_Duñach_Sala_Based_1926雕塑NOIA数字化完整数据

    2025年12月12日 30 196 134

    数据集概述 该数据集包含艺术家Josep Duñach Sala于1926年创作的雕塑《NOIA DE LA SANDÀLIA》的数字化资源,涵盖多语言描述、图片及三维模型文件,为该石膏与橡胶漆雕塑的数字化存档提供支持。 文件详解...
    packageimg
  • 互联网语言障碍消除数据集

    2025年12月12日 30 207 116

    数据集概述 该数据集围绕消除互联网语言障碍主题,包含针对代表性不足语言的平行语料库、翻译书籍及相关文档,覆盖西班牙语与拉帕努伊语、马普切语等语言对,为自然语言处理研究提供多语言资源支持。 文件详解 许可与说明文件: LICENSE.txt:TXT格式,包含CC-BY-SA 4.0许可协议内容...
    packageimg
  • 多语言问答视频字幕数据集MultilingualQuestionAnsweringVideoSubtitles-dikideep

    2025年5月1日 30 22 8

    多语言问答视频字幕数据集MultilingualQuestionAnsweringVideoSubtitles-dikideep 数据来源:互联网公开数据 标签:多语言, 问答, 视频字幕, 机器翻译, 文本匹配, 语义理解, 跨语言检索, 对比分析 数据概述: 该数据集包含来自dikideep-...
    packageimg
  • 句子间连接数据集

    2025年4月21日 30 15 4

    句子间连接数据集 数据来源:互联网公开数据 标签:跨语言连接,多语言资源,语言对齐,语料库,NLP研究 数据概述: 本数据集记录了不同语言之间的句子配对,主要来源于Tatoeba项目。数据集包含了多种语言的句子及其对应关系,为研究和开发多语言自然语言处理任务提供了宝贵的资源。 数据用途概述:...
    packageimg