找到3个数据集

标签: 金标准语料库

过滤结果
  • Softcite_Based_科学文献软件提及标注数据集_Version2

    2026年1月21日 30 142 71

    数据集概述 本数据集为Softcite Dataset Version 2,包含4971篇英文开放获取科学文献的软件提及标注,涵盖生命科学与经济学领域,共约4600万词。标注经多阶段人工标注与冲突协调,新增软件类型细分(环境、组件、隐式)及编程语言标注,是科学文献软件提及分析的金标准语料库。 文件详解 压缩包文件...
    packageimg
  • COVID_19相关生物医学自然语言处理词典与标注语料库工具包

    2025年12月13日 30 26 6

    数据集概述 本数据集为生物医学自然语言处理任务提供工具包,包含COVID-19相关的英文词典、标注语料库及代码工作流。词典覆盖疾病、病毒、变异株等术语,用于从CORD-19数据集提取信息,构建大型银标准语料库,辅以人工标注的金标准语料库,支持命名实体识别等文本分析任务。 文件详解...
    packageimg
  • Cantemist肿瘤临床病例CIE_O_3术语标注金标准语料库

    2025年12月9日 30 33 28

    数据集概述 该数据集是Cantemist共享任务语料库,包含训练集、开发集、测试集及背景集,涵盖cantemist-ner、cantemist-norm、cantemist-coding三个子任务的金标准标注数据,背景集为无标注文档,用于西班牙语癌症文本挖掘研究。 文件详解 数据集包含一个压缩文件,具体说明如下: - 文件名称:...
    packageimg