MEDDOPROF_Test_Set_西班牙语临床病例职业信息检测共享任务测试数据

数据集概述

本数据集是MEDDOPROF共享任务的测试集,用于西班牙语临床病例中职业、就业状态的自动检测。该任务包含三个子任务:职业实体识别(MEDDOPROF-NER)、职业指代分类(MEDDOPROF-CLASS)和职业标准化(MEDDOPROF-NORM),可支撑医疗、社会服务、制药等多领域的文本处理需求,数据集包含一个压缩文件。

文件详解

  • 文件名称:meddoprof-test-GS.zip
  • 文件格式:ZIP
  • 字段映射介绍:压缩包内含MEDDOPROF共享任务测试集的黄金标准数据,包含西班牙语临床病例文本及对应标注,支撑三个子任务的评估:识别职业提及的边界与类型(PROFESION、SITUACION_LABORAL、ACTIVIDAD)、分类职业指代对象(PACIENTE、FAMILIAR、SANITARIO、OTRO)、按参考代码列表进行职业标准化。

数据来源

Salvador Lima-López等作者的论文“NLP applied to occupational health: MEDDOPROF shared task at IberLEF 2021...”

适用场景

  • 医疗文本职业信息识别:用于测试西班牙语临床病例中职业、就业状态的自动检测模型性能。
  • 自然语言处理模型训练:支撑医疗领域NER、分类、标准化等NLP子任务的模型开发与评估。
  • 跨领域文本分析:为医疗、社会服务、制药行业提供职业相关文本处理的基础数据。
  • 医疗数据匿名化辅助:为临床文本匿名化等NLP任务提供职业实体标注参考。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 1.5 MiB
最后更新 2026年1月15日
创建于 2026年1月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。