多语言合成出院小结数据集_基于心力衰竭临床病例

数据集概述

该数据集包含一千份心脏病学临床病例报告及其对应的多语言合成出院小结,覆盖英语、西班牙语和荷兰语三种语言。小结由GPT-4o-mini通过零样本提示生成并翻译,旨在为临床自然语言处理系统提供训练与评估数据支持。

文件详解

  • 根目录文件:
  • MultiSynDS.zip: 压缩文件,包含数据集所有内容
  • 子目录结构:
  • original/:含原始临床病例(txt子文件夹)及对应MeSH术语(metadata子文件夹)
  • en/:GPT-4o-mini生成的英文出院小结
  • es/:GPT-4o-mini生成翻译的西班牙文出院小结,含翻译前的英文中间文件
  • nl/:GPT-4o-mini生成的荷兰文出院小结

数据来源

AI4HF项目

适用场景

  • 临床自然语言处理模型训练:用于命名实体识别、文本摘要等任务
  • 跨语言迁移学习研究:支持英语、西班牙语、荷兰语医疗文本的跨语言分析
  • 医疗文本生成质量评估:可用于评估大语言模型生成医疗文书的准确性与完整性
  • 多语言医疗语料库构建:为多语言医疗NLP研究提供标准化数据集
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 8.87 MiB
最后更新 2025年12月6日
创建于 2025年12月6日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。