LivingNER标准语料库_物种病原体食物命名实体识别与分类数据集

该数据集为LivingNER标准语料库，包含训练、验证、测试及背景集，覆盖多医学专科的两千份临床病例报告，标注物种、病原体、人类及食物等实体，并提供多语言资源，用于命名实体识别、归一化及分类任务。

核心压缩文件:
livingner-bundle_training_valid_test_background_multilingual.zip: ZIP格式压缩包，包含训练、验证、测试及背景集数据，以及多语言资源
文本文件:
临床病例报告原文: UTF-8编码的纯文本文件（.txt），分训练、验证、测试及背景集
标注文件:
子任务1标注文件: TSV格式，含filename、mark、label、off0、off1、span字段
子任务2标注文件: TSV格式，在子任务1基础上增加isH、isN、iscomplex、NCBITax字段
子任务3标注文件: TSV格式，含filename、isPet、PetIDs、isAnimalInjury等字段
多语言资源文件:
翻译后的文本文件: 存储于multilingual_resources目录下的训练/验证文本子文件夹
翻译后的标注文件: 存储于multilingual_resources/annotation_transfer子文件夹
LINNAEUS工具生成的标注文件: 存储于multilingual_resources/linneaus子文件夹

数据与资源

字段	值
作者	Maxj
版本	1
数据集大小	56.26 MiB
最后更新	2025年12月15日
创建于	2025年12月15日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。