MEDDOCAN西班牙语临床病例报告匿名化标注数据集

数据集概述

该数据集包含MEDDOCAN共享任务的训练、开发、测试集(含黄金标准标注)及背景集(无标注),用于西班牙语临床病例报告的文档匿名化研究。标注采用Brat和XML格式,支持格式转换,为医学文本去标识任务提供标准化数据。

文件详解

  • 文件名称: meddocan.zip
  • 文件格式: ZIP压缩包
  • 内容说明: 压缩包内包含MEDDOCAN共享任务的训练集、开发集、测试集(带黄金标准标注)及背景集(无标注)。标注数据提供Brat和XML两种格式,支持与i2b2格式的转换。

适用场景

  • 医学自然语言处理研究:用于开发和评估西班牙语临床文本的自动去标识模型
  • 医疗数据隐私保护:探索医疗文档匿名化技术在临床病例报告中的应用
  • 多语言医学文本处理:为跨语言医学信息抽取任务提供标注数据参考
  • 标注标准研究:分析黄金标准标注在医学文档匿名化任务中的质量与一致性
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 11.2 MiB
最后更新 2025年12月16日
创建于 2025年12月16日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。