MEDDOPROF语料库训练集与补充实体数据集

数据集概述

该数据集为MEDDOPROF共享任务资源,包含西班牙语临床病例中职业与就业状态检测的训练数据及补充实体标注。数据集支持职业提及识别、分类和归一化三个子任务,适用于自然语言处理相关研究与应用。

文件详解

  • 文件名称: meddoprof-training-set.zip
  • 文件格式: ZIP压缩包 (.zip)
  • 文件内容: 包含MEDDOPROF共享任务的训练数据集及补充实体标注(MEDDOPROF-CE)。补充实体标注在原始人工标注基础上增加了症状、疾病、药物等九类自动生成的临床和语言实体,可用于测试其他实体类型对任务的影响或信息发现。

适用场景

  • 自然语言处理研究: 用于开发和测试西班牙语临床文本中的职业与就业状态识别、分类及归一化模型
  • 医学信息抽取: 辅助从临床病例中自动提取职业相关信息,支持医疗数据处理
  • 职业健康研究: 为职业健康领域的数据分析提供结构化的文本标注资源
  • 跨领域应用: 可作为其他NLP任务(如文本匿名化)的辅助数据资源
  • 多实体类型分析: 测试补充实体(症状、疾病等)对职业识别任务的影响
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 12.96 MiB
最后更新 2025年12月5日
创建于 2025年12月5日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。