数据集概述
该数据集为LivingNER标准语料库,包含训练、验证、测试及背景集,覆盖多医学专科的两千份临床病例报告,标注物种、病原体、人类及食物等实体,并提供多语言资源,用于命名实体识别、归一化及分类任务。
文件详解
- 核心压缩文件:
- livingner-bundle_training_valid_test_background_multilingual.zip: ZIP格式压缩包,包含训练、验证、测试及背景集数据,以及多语言资源
- 文本文件:
- 临床病例报告原文: UTF-8编码的纯文本文件(.txt),分训练、验证、测试及背景集
- 标注文件:
- 子任务1标注文件: TSV格式,含filename、mark、label、off0、off1、span字段
- 子任务2标注文件: TSV格式,在子任务1基础上增加isH、isN、iscomplex、NCBITax字段
- 子任务3标注文件: TSV格式,含filename、isPet、PetIDs、isAnimalInjury等字段
- 多语言资源文件:
- 翻译后的文本文件: 存储于multilingual_resources目录下的训练/验证文本子文件夹
- 翻译后的标注文件: 存储于multilingual_resources/annotation_transfer子文件夹
- LINNAEUS工具生成的标注文件: 存储于multilingual_resources/linneaus子文件夹
适用场景
- 临床自然语言处理研究: 用于训练和评估物种、病原体、人类及食物实体的命名实体识别模型
- 医学信息抽取应用: 从临床病例报告中自动提取病原体、食物过敏原等关键信息
- 多语言医学文本分析: 基于多语言资源开展跨语言医学实体识别研究
- 医学知识图谱构建: 利用实体归一化数据链接至NCBI Taxonomy等知识库
- 临床决策支持系统开发: 基于实体分类结果分析食物、宠物等因素与疾病的关联