LivingNER标准语料库_物种病原体食物命名实体识别与分类数据集

数据集概述

该数据集为LivingNER标准语料库,包含训练、验证、测试及背景集,覆盖多医学专科的两千份临床病例报告,标注物种、病原体、人类及食物等实体,并提供多语言资源,用于命名实体识别、归一化及分类任务。

文件详解

  • 核心压缩文件:
  • livingner-bundle_training_valid_test_background_multilingual.zip: ZIP格式压缩包,包含训练、验证、测试及背景集数据,以及多语言资源
  • 文本文件:
  • 临床病例报告原文: UTF-8编码的纯文本文件(.txt),分训练、验证、测试及背景集
  • 标注文件:
  • 子任务1标注文件: TSV格式,含filename、mark、label、off0、off1、span字段
  • 子任务2标注文件: TSV格式,在子任务1基础上增加isH、isN、iscomplex、NCBITax字段
  • 子任务3标注文件: TSV格式,含filename、isPet、PetIDs、isAnimalInjury等字段
  • 多语言资源文件:
  • 翻译后的文本文件: 存储于multilingual_resources目录下的训练/验证文本子文件夹
  • 翻译后的标注文件: 存储于multilingual_resources/annotation_transfer子文件夹
  • LINNAEUS工具生成的标注文件: 存储于multilingual_resources/linneaus子文件夹

适用场景

  • 临床自然语言处理研究: 用于训练和评估物种、病原体、人类及食物实体的命名实体识别模型
  • 医学信息抽取应用: 从临床病例报告中自动提取病原体、食物过敏原等关键信息
  • 多语言医学文本分析: 基于多语言资源开展跨语言医学实体识别研究
  • 医学知识图谱构建: 利用实体归一化数据链接至NCBI Taxonomy等知识库
  • 临床决策支持系统开发: 基于实体分类结果分析食物、宠物等因素与疾病的关联
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 56.26 MiB
最后更新 2025年12月15日
创建于 2025年12月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。