数据集概述
本数据集为MESINESP2研讨会后发布的补充数据,包含人工标注记录和银标准数据集两部分。人工标注记录涵盖竞赛评估数据集的验证与未验证标注信息;银标准数据集基于6支团队24次系统运行结果构建,含超580万数据点,可用于丰富生物医学语义索引任务的训练数据。
文件详解
- all_annotations_withIDsv3.tsv
- 文件格式:TSV
- 字段映射介绍:包含annotatorName(标注者ID)、documentId(源数据库文档ID)、decsCode(DeCS编码)、timestamp(标注时间)、validated(是否验证)、SpanishTerm(西班牙语描述符)、mesinespId(MESINESP内部文档ID)、dataset(数据集类型)、source(源数据库)字段。
- mesinesp_silver_standard.zip
- 文件格式:ZIP
- 字段映射介绍:包含SubmissionName(团队别名)、REALdocumentId(真实文档ID)、mesinespId(MESINESP文档ID)、docSource(源数据库)、decsCode(DeCS编码)、SpanishTerm(西班牙语描述符)、MiF(Micro-f1)、MiR(Micro-Recall)、MiP(Micro-Precision)、Acc(准确率)、consensus(编码共识次数)字段。
数据来源
BioASQ 2020研讨会MESINESP2任务
适用场景
- 生物医学语义索引模型训练:利用银标准数据集丰富训练数据,提升模型性能。
- 标注质量评估:通过人工标注记录分析标注者行为与标注一致性。
- 系统性能对比:基于银标准数据集的系统评分字段,比较不同团队模型的Micro-f1、召回率、精确率等指标。
- 生物医学术语映射研究:分析DeCS编码与西班牙语术语的对应关系,支持跨语言语义索引任务。