找到19个数据集

标签: 开发集

过滤结果
  • LC_QuAD_2_1_Based_清洗版知识库问答实验数据集

    2026年2月8日 30 23 21

    数据集概述 本数据集是LC-QuAD 2.0的清洗版本,包含移除异常值和重复问题后的知识库问答数据,提供Wikidata和DBpedia 2018的虚拟SPARQL模板,以及论文使用的训练、开发、测试集,含带与不带复述问题的两个训练集,共四个JSON文件。 文件详解 训练集(无复述问题)...
    packageimg
  • MTARSI_INNAR_航空图像飞机类型分类数据集

    2026年1月31日 30 66 60

    数据集概述 本数据集为MTARSI-INNAR,经精心整理确保无交叉污染,包含27类飞机类型的训练集数据、含未见过样本的开发集,以及16类飞机类型的测试集,各集合飞机类型分布均衡,适用于航空、人工智能及图像分析领域的模型训练与评估。 文件详解 压缩包文件 文件名称:MTARSI-INNAR.zip 文件格式:ZIP...
    packageimg
  • TUT_Acoustic_scenes_2017处理后图像数据集

    2026年1月28日 30 31 13

    数据集概述 本数据集为TUT Acoustic scenes 2017的处理后图像数据,包含开发集和评估集两个压缩包。核心内容是未分离脉冲能量谱图,结合时间信号导数的可视化处理,用于声学场景分类研究,探索统计表示及深度学习在场景识别中的应用。 文件详解 TUT-acoustic-scenes-2017-development.image.zip...
    packageimg
  • MiRoR11_P2_Based_主要与报告结局提取标注语料库数据

    2026年1月27日 30 130 96

    数据集概述 本数据集为MiRoR11-P2项目下的标注语料库,用于主要结局与报告结局的提取任务。包含两个子文件夹,分别存储主要结局和报告结局的标注文本,支持医疗文本中结局信息的结构化提取研究,总含多格式标注文件及交叉验证子数据集。 文件详解 Primary_outcomes子文件夹...
    packageimg
  • DCASE_2024_Task_9_Based_语言查询音频源分离开发集数据

    2026年1月20日 30 143 48

    数据集概述 本数据集是DCASE 2024 Task 9的开发集,由FSD50K和Clotho v2数据集的音频样本组成。FSD50K含51k+音频片段,通过AudioSet Ontology的200个类别手动标注;Clotho...
    packageimg
  • WSDM2021_Contextualizing_新闻趋势实体上下文分析数据集

    2026年1月20日 30 115 84

    数据集概述 本数据集是基于《纽约时报标注语料库》开发的富集数据,包含149个趋势事件,涉及12万个实体。数据旨在对新闻中的趋势实体进行上下文关联,按实体对趋势的解释价值排序。数据集分为无监督(149个趋势)和有监督(训练集50个、开发集34个、测试集65个)两类评估数据,支持趋势实体解释性研究。 文件详解 文件名称:contextualizing-...
    packageimg
  • PharmaCoNER药物物质化合物蛋白质命名实体识别西班牙语临床案例报告语料库

    2025年12月23日 30 26 24

    数据集概述 该数据集是PharmaCoNER共享任务的人工标注黄金标准语料库,包含1000篇西班牙语临床案例报告,覆盖肿瘤学、泌尿学等多个医学领域,标注了药物物质、化合物、蛋白质等实体,适用于生物医学命名实体识别研究。 文件详解 文件名称: pharmaconer.zip 文件格式: ZIP压缩文件 内容说明:...
    packageimg
  • CodiEsp西班牙语临床病例ICD10编码金标准数据集_CLEF2020

    2025年12月19日 30 197 56

    数据集概述 该数据集是CLEF eHealth 2020 CodiEsp赛道的西班牙语临床病例金标准语料库,包含训练集、开发集、测试集(含人工注释)及未标注背景集,共一千个临床病例,采用CIE10(西班牙版ICD10)编码术语,为非英语临床病例自动编码研究提供标注数据。 文件详解 数据集为zip压缩包,包含四个文件夹,具体如下: -...
    packageimg
  • MEDDOCAN西班牙语临床病例报告匿名化标注数据集

    2025年12月16日 30 151 139

    数据集概述 该数据集包含MEDDOCAN共享任务的训练、开发、测试集(含黄金标准标注)及背景集(无标注),用于西班牙语临床病例报告的文档匿名化研究。标注采用Brat和XML格式,支持格式转换,为医学文本去标识任务提供标准化数据。 文件详解 文件名称: meddocan.zip 文件格式: ZIP压缩包 内容说明:...
    packageimg
  • 辅音挑战语料库

    2025年12月16日 30 61 56

    数据集概述 该语料库提供用于支持人机辅音识别对比(安静与噪声环境)的数据集。包含二十四名英语母语者(十二女、十二男)的语音数据,覆盖二十四个英语辅音在九种元音环境、两种重音类型下的发音,共一万零三百六十八个语音样本,适用于自动语音识别实验的训练、开发和测试。 文件详解 技术说明文件: readme.pdf:...
    packageimg
  • ClinSpEn平行语料库_英语_西班牙语COVID_19临床病例_术语和本体概念数据集

    2025年12月14日 30 21 14

    数据集概述 该数据集为ClinSpEn平行语料库,包含英语-西班牙语COVID-19临床病例报告、临床术语及本体概念三类数据,由专业医学翻译人员翻译并经临床专家修订,适用于训练和评估临床机器翻译系统,还提供单语背景数据用于分析系统在未见过数据上的表现。 文件详解 文件名称: clinspen_corpora_complete.zip 文件格式:...
    packageimg
  • Aitslab_bioimaging1荧光显微镜核标注数据集

    2025年12月13日 30 208 119

    数据集概述 本数据集为荧光显微镜图像基准数据集,含Hoechst 33342染色的细胞核、核碎片及微核标注。图像来自U2OS骨肉瘤细胞系RNA干扰筛选,共50张图像、2000余个标注核对象,预分为训练、开发、测试集,可用于训练细胞核分割神经网络。 文件详解 该数据集包含5个文件,具体说明如下: - 数据文件(压缩包形式): -...
    packageimg
  • 心脏离子通道小分子活性综合数据集

    2025年12月12日 30 203 27

    数据集概述 该数据集是一个面向药物发现领域的综合数据库,涵盖hERG、Nav1.5和Cav1.2三种心脏离子通道的小分子活性数据。数据以压缩文件形式组织,每个离子通道目标包含开发集(含训练/验证子集)及两个不同结构相似度阈值的外部测试集,为离子通道毒性预测模型的构建与评估提供标准化数据支持。 文件详解 压缩文件: dataset.rar:...
    packageimg
  • MESINESP2西班牙语生物医学语义索引标注语料库

    2025年12月11日 30 118 107

    数据集概述 该数据集为MESINESP2任务生成的人工标注语料库,包含科学文献、临床试验、专利摘要三类西班牙语生物医学文档,由领域专家使用DeCS受控词汇标注,旨在推动非英语生物医学内容语义索引工具的开发。 文件详解 子任务语料压缩包:...
    packageimg
  • 时间感知命名实体识别推特语料库

    2025年12月10日 30 196 96

    数据集概述 该数据集为命名实体识别任务开发,包含2014-2019年的12000条标注推特,每年2000条。标注实体类型为地点(LOC)、人物(PER)和组织(ORG),用于研究时间数据漂移对NER模型的影响。 文件详解 文件名称: temporal-ner-twitter-corpus.zip 文件格式: ZIP压缩包 内容说明:...
    packageimg
  • Cantemist肿瘤临床病例CIE_O_3术语标注金标准语料库

    2025年12月9日 30 120 29

    数据集概述 该数据集是Cantemist共享任务语料库,包含训练集、开发集、测试集及背景集,涵盖cantemist-ner、cantemist-norm、cantemist-coding三个子任务的金标准标注数据,背景集为无标注文档,用于西班牙语癌症文本挖掘研究。 文件详解 数据集包含一个压缩文件,具体说明如下: - 文件名称:...
    packageimg
  • BNE_Based_PastReader_2025_历史报刊数字化完整数据

    2025年12月8日 30 10 8

    数据集概述 该数据集用于IberLEF 2025的PastReader 2025共享任务,基于西班牙国家图书馆数字化的公共领域历史报刊生成,包含训练、开发、测试三类压缩文件,支持相关历史文本处理任务研究。 文件详解 文件名称:train.zip 文件格式:ZIP压缩文件 说明:训练集压缩包,具体内容未提供预览 文件名称:dev.zip...
    packageimg
  • Zenodo_DCASE2024Task7_Based_文本提示环境声音合成完整数据集

    2025年12月7日 30 63 30

    数据集概述 本数据集包含三百一十组音频片段与对应文本提示,音频时长均为四秒。所有内容经人工精心设计,支持环境声音场景合成任务的生成模型开发与评估。数据分为开发集与评估集,结构清晰,可实现对生成模型的可控量化评估。 文件详解 数据集以压缩包形式提供,解压后包含以下目录结构: - 开发集目录(dev/): - audio/:存放开发集的WAV格式音频文件...
    packageimg
  • DrugProt语料库_BioCreative_VII_Track1_药物化学物质_蛋白质相互作用文本挖掘数据集

    2025年12月4日 30 90 13

    数据集概述 该数据集是BioCreative VII Track 1任务的金标准标注语料库,包含训练集、开发集、测试集及背景集,涵盖PubMed摘要、人工标注的化学物质/基因实体及化学-蛋白质关系,用于推动药物发现、精准医疗相关的文本挖掘系统开发。 文件详解 训练集文件夹...
    packageimg