多语言临床病例报告摘要数据集2025

数据集概述

该数据集为CLEF 2025 BioASQ研讨会MultiClinSum共享任务所用,包含英、西、法、葡四种语言的临床病例报告全文与对应摘要对,分黄金标准训练集、大规模训练集和测试集,支持多语言临床文本自动摘要研究。

文件详解

该数据集包含12个ZIP格式压缩文件,按语言和用途分类如下: - 黄金标准训练集(各语言592对全文与摘要): - multiclinsum_gs_train_en.zip:英文黄金标准训练数据 - multiclinsum_gs_train_es.zip:西班牙文黄金标准训练数据 - multiclinsum_gs_train_fr.zip:法文黄金标准训练数据 - multiclinsum_gs_train_pt.zip:葡萄牙文黄金标准训练数据 - 大规模训练集(各语言25902对全文与摘要): - multiclinsum_large-scale_train_en.zip:英文大规模训练数据 - multiclinsum_large-scale_train_es.zip:西班牙文大规模训练数据 - multiclinsum_large-scale_train_fr.zip:法文大规模训练数据 - multiclinsum_large-scale_train_pt.zip:葡萄牙文大规模训练数据 - 测试集(仅含全文病例): - multiclinsum_test_en.zip:英文测试数据(3396条全文) - multiclinsum_test_es.zip:西班牙文测试数据(3406条全文) - multiclinsum_test_fr.zip:法文测试数据(3469条全文) - multiclinsum_test_pt.zip:葡萄牙文测试数据(3442条全文) - 内部结构:每个压缩文件包含UTF-8编码的.txt文件,全文与摘要分文件夹存储,摘要文件以_sum后缀标记

数据来源

MultiClinSum共享任务(CLEF 2025 BioASQ研讨会)

适用场景

  • 多语言自然语言处理研究:开发与评估临床文本自动摘要模型
  • 医学信息学应用:提升临床病例报告的信息提取与总结效率
  • 跨语言模型迁移:探索不同语言间临床文本处理的迁移学习效果
  • 医疗数据标准化:支持多语言临床文本的结构化与语义分析
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 302.0 MiB
最后更新 2025年12月13日
创建于 2025年12月13日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。