SympTEMIST症状体征信息抽取标注数据集

数据集概述

该数据集是针对西班牙语文档中症状、体征和检查结果进行信息抽取的标注资源,包含任务训练测试集、SNOMED术语词表、九种语言的银标准数据及一万五千余例临床病例背景集,为医学文本挖掘研究提供标准化标注数据。

文件详解

  • 文件名称: symptemist-complete_240208.zip
  • 文件格式: ZIP压缩包
  • 包含内容:
  • 三个子任务的训练集与测试集
  • 基于SNOMED的症状、体征和检查结果术语词表
  • 九种语言(英语、葡萄牙语、法语、意大利语、罗马尼亚语、加泰罗尼亚语、瑞典语、荷兰语、捷克语)的银标准数据
  • 一万五千余例临床病例背景集
  • 西班牙语文本背景集的银标准预测数据(由参与者提供)

数据来源

巴塞罗那超级计算中心生物医学信息分析自然语言处理团队

适用场景

  • 医学文本挖掘研究: 用于开发和评估西班牙语临床文本中症状、体征和检查结果的检测与标准化系统
  • 多语言医学信息抽取: 支持九种语言的银标准数据可用于跨语言模型训练与迁移学习
  • 术语标准化研究: 基于SNOMED术语词表的标注可用于医学术语映射与归一化算法开发
  • 临床NLP基准测试: 作为BioCreative VIII挑战赛的官方数据集,可用于系统性能对比与评估
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 431.87 MiB
最后更新 2025年12月4日
创建于 2025年12月4日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。