数据集概述
本数据集是MEDDOPROF共享任务的测试集,用于西班牙语临床病例中职业、就业状态的自动检测。该任务包含三个子任务:职业实体识别(MEDDOPROF-NER)、职业指代分类(MEDDOPROF-CLASS)和职业标准化(MEDDOPROF-NORM),可支撑医疗、社会服务、制药等多领域的文本处理需求,数据集包含一个压缩文件。
文件详解
- 文件名称:
meddoprof-test-GS.zip
- 文件格式:ZIP
- 字段映射介绍:压缩包内含MEDDOPROF共享任务测试集的黄金标准数据,包含西班牙语临床病例文本及对应标注,支撑三个子任务的评估:识别职业提及的边界与类型(PROFESION、SITUACION_LABORAL、ACTIVIDAD)、分类职业指代对象(PACIENTE、FAMILIAR、SANITARIO、OTRO)、按参考代码列表进行职业标准化。
数据来源
Salvador Lima-López等作者的论文“NLP applied to occupational health: MEDDOPROF shared task at IberLEF 2021...”
适用场景
- 医疗文本职业信息识别:用于测试西班牙语临床病例中职业、就业状态的自动检测模型性能。
- 自然语言处理模型训练:支撑医疗领域NER、分类、标准化等NLP子任务的模型开发与评估。
- 跨领域文本分析:为医疗、社会服务、制药行业提供职业相关文本处理的基础数据。
- 医疗数据匿名化辅助:为临床文本匿名化等NLP任务提供职业实体标注参考。