数据集

多语言临床病例报告摘要数据集2025

数据集概述

该数据集为CLEF 2025 BioASQ研讨会MultiClinSum共享任务所用，包含英、西、法、葡四种语言的临床病例报告全文与对应摘要对，分黄金标准训练集、大规模训练集和测试集，支持多语言临床文本自动摘要研究。

文件详解

该数据集包含12个ZIP格式压缩文件，按语言和用途分类如下： - 黄金标准训练集（各语言592对全文与摘要）： - multiclinsum_gs_train_en.zip：英文黄金标准训练数据 - multiclinsum_gs_train_es.zip：西班牙文黄金标准训练数据 - multiclinsum_gs_train_fr.zip：法文黄金标准训练数据 - multiclinsum_gs_train_pt.zip：葡萄牙文黄金标准训练数据 - 大规模训练集（各语言25902对全文与摘要）： - multiclinsum_large-scale_train_en.zip：英文大规模训练数据 - multiclinsum_large-scale_train_es.zip：西班牙文大规模训练数据 - multiclinsum_large-scale_train_fr.zip：法文大规模训练数据 - multiclinsum_large-scale_train_pt.zip：葡萄牙文大规模训练数据 - 测试集（仅含全文病例）： - multiclinsum_test_en.zip：英文测试数据（3396条全文） - multiclinsum_test_es.zip：西班牙文测试数据（3406条全文） - multiclinsum_test_fr.zip：法文测试数据（3469条全文） - multiclinsum_test_pt.zip：葡萄牙文测试数据（3442条全文） - 内部结构：每个压缩文件包含UTF-8编码的.txt文件，全文与摘要分文件夹存储，摘要文件以_sum后缀标记

数据来源

MultiClinSum共享任务（CLEF 2025 BioASQ研讨会）

适用场景

多语言自然语言处理研究：开发与评估临床文本自动摘要模型
医学信息学应用：提升临床病例报告的信息提取与总结效率
跨语言模型迁移：探索不同语言间临床文本处理的迁移学习效果
医疗数据标准化：支持多语言临床文本的结构化与语义分析

数据与资源

15546018.zipZIP
302.00 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	302.0 MiB
最后更新	2025年12月13日
创建于	2025年12月13日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。