数据集概述
该数据集为CLEF 2025 BioASQ研讨会MultiClinSum共享任务所用,包含英、西、法、葡四种语言的临床病例报告全文与对应摘要对,分黄金标准训练集、大规模训练集和测试集,支持多语言临床文本自动摘要研究。
文件详解
该数据集包含12个ZIP格式压缩文件,按语言和用途分类如下:
- 黄金标准训练集(各语言592对全文与摘要):
- multiclinsum_gs_train_en.zip:英文黄金标准训练数据
- multiclinsum_gs_train_es.zip:西班牙文黄金标准训练数据
- multiclinsum_gs_train_fr.zip:法文黄金标准训练数据
- multiclinsum_gs_train_pt.zip:葡萄牙文黄金标准训练数据
- 大规模训练集(各语言25902对全文与摘要):
- multiclinsum_large-scale_train_en.zip:英文大规模训练数据
- multiclinsum_large-scale_train_es.zip:西班牙文大规模训练数据
- multiclinsum_large-scale_train_fr.zip:法文大规模训练数据
- multiclinsum_large-scale_train_pt.zip:葡萄牙文大规模训练数据
- 测试集(仅含全文病例):
- multiclinsum_test_en.zip:英文测试数据(3396条全文)
- multiclinsum_test_es.zip:西班牙文测试数据(3406条全文)
- multiclinsum_test_fr.zip:法文测试数据(3469条全文)
- multiclinsum_test_pt.zip:葡萄牙文测试数据(3442条全文)
- 内部结构:每个压缩文件包含UTF-8编码的.txt文件,全文与摘要分文件夹存储,摘要文件以_sum后缀标记
数据来源
MultiClinSum共享任务(CLEF 2025 BioASQ研讨会)
适用场景
- 多语言自然语言处理研究:开发与评估临床文本自动摘要模型
- 医学信息学应用:提升临床病例报告的信息提取与总结效率
- 跨语言模型迁移:探索不同语言间临床文本处理的迁移学习效果
- 医疗数据标准化:支持多语言临床文本的结构化与语义分析