Cantemist肿瘤临床病例CIE_O_3术语标注金标准语料库

数据集概述

该数据集是Cantemist共享任务语料库,包含训练集、开发集、测试集及背景集,涵盖cantemist-ner、cantemist-norm、cantemist-coding三个子任务的金标准标注数据,背景集为无标注文档,用于西班牙语癌症文本挖掘研究。

文件详解

数据集包含一个压缩文件,具体说明如下: - 文件名称: cantemist.zip - 文件格式: ZIP压缩包 (.zip) - 内容构成: - 共享任务数据集: 分为train、dev1、dev2、test四个子集,包含三个子任务的金标准标注 - 子任务文件: - cantemist-ner与cantemist-norm: 标注采用Brat格式 - cantemist-coding: 标注采用TSV格式,包含filename(文件名)、code(编码)两列 - 背景集: 无标注的文档集合

适用场景

  • 生物医学文本挖掘: 用于西班牙语癌症临床文本的命名实体识别研究
  • 医学术语标准化: 支持肿瘤相关概念的归一化与编码映射分析
  • 临床编码自动化: 辅助开发基于文本的CIE-O 3肿瘤编码自动生成系统
  • 多任务学习: 为命名实体识别、概念归一化、临床编码联合任务提供训练数据
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 16.43 MiB
最后更新 2025年12月9日
创建于 2025年12月9日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。