找到6个数据集

标签: 多语言资源

过滤结果
  • 欧洲文学文本集合2021年4月版

    2025年12月18日 30 1 0

    数据集概述 本数据集为2021年4月发布的欧洲文学文本集合(ELTeC)1.1.0版本,包含十四种欧洲语言的小说集合,其中八种语言的小说数量达一百部,总计超过一千二百部小说,为欧洲文学远程阅读研究提供多语言文本资源支持。 文件详解...
    packageimg
  • LivingNER标准语料库_物种病原体食物命名实体识别与分类数据集

    2025年12月15日 30 136 25

    数据集概述 该数据集为LivingNER标准语料库,包含训练、验证、测试及背景集,覆盖多医学专科的两千份临床病例报告,标注物种、病原体、人类及食物等实体,并提供多语言资源,用于命名实体识别、归一化及分类任务。 文件详解 核心压缩文件: livingner-...
    packageimg
  • 喜马拉雅凤仙花种子芬兰冬季后发芽数据集

    2025年12月11日 30 70 44

    数据集概述 本数据集包含喜马拉雅凤仙花种子在芬兰冬季后发芽情况的研究数据、分析代码及多语言预印本文章。核心内容为探究该种子经过芬兰冬季后的发芽表现,提供结构化数据与可复现分析资源。 文件详解 balsam_seeds.R: R语言代码文件,用于数据分析(英文注释) balsam_seeds.csv: CSV格式数据文件,包含字段: square:...
    packageimg
  • 跨语言共现数据库LOGOS数据集1_0

    2025年12月5日 30 174 125

    数据集概述 该数据集为跨语言共现数据库(CLICS)的LOGOS数据版本1.0,由List等人于2014年发布,记录跨语言词汇共现现象,为语言比较研究提供基础数据支持。 文件详解 文件名称: lexibank/logos-v4.0.zip:压缩文件格式,包含跨语言共现数据库的LOGOS数据,具体字段需解压后查看,未提供预览内容。 数据来源 List,...
    packageimg
  • DisTEMIST西班牙语临床病例疾病提及检测与标准化数据集

    2025年12月4日 30 154 138

    数据集概述 本数据集为DisTEMIST语料库,包含一千份西班牙语临床病例,病例中的疾病提及经人工标注并映射至SNOMED-CT概念。数据集分为训练集、测试集、背景集,同时提供多语言资源和跨术语映射文件,支持疾病实体检测与标准化相关研究。 文件详解 数据集以压缩包形式提供,核心内容包含以下目录与文件: - 主文件: -...
    packageimg
  • 句子间连接数据集

    2025年4月21日 30 66 19

    句子间连接数据集 数据来源:互联网公开数据 标签:跨语言连接,多语言资源,语言对齐,语料库,NLP研究 数据概述: 本数据集记录了不同语言之间的句子配对,主要来源于Tatoeba项目。数据集包含了多种语言的句子及其对应关系,为研究和开发多语言自然语言处理任务提供了宝贵的资源。 数据用途概述:...
    packageimg