PharmaCoNER药物物质化合物蛋白质命名实体识别西班牙语临床案例报告语料库

数据集概述

该数据集是PharmaCoNER共享任务的人工标注黄金标准语料库,包含1000篇西班牙语临床案例报告,覆盖肿瘤学、泌尿学等多个医学领域,标注了药物物质、化合物、蛋白质等实体,适用于生物医学命名实体识别研究。

文件详解

  • 文件名称: pharmaconer.zip
  • 文件格式: ZIP压缩文件
  • 内容说明: 包含训练集、开发集、测试集(Brat格式标注)及无标注背景集;标注实体分为可归一化化学物质、不可归一化化学物质、蛋白质/基因、临床相关通用物质类四种类型,基于SNOMED-CT等标准进行归一化。

适用场景

  • 生物医学命名实体识别模型训练与评估
  • 西班牙语临床文本中药物与蛋白质实体的自动提取研究
  • 多医学领域实体标注标准的验证与优化
  • 医疗信息抽取系统的性能测试基准数据集
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 6.26 MiB
最后更新 2025年12月23日
创建于 2025年12月23日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。