SympTEMIST症状体征信息抽取标注数据集

关注者: 0

资源积分: 30

分类

公开数据

公开数据

授权

没有提供授权

数据集

SympTEMIST症状体征信息抽取标注数据集

数据集概述

该数据集是针对西班牙语文档中症状、体征和检查结果进行信息抽取的标注资源，包含任务训练测试集、SNOMED术语词表、九种语言的银标准数据及一万五千余例临床病例背景集，为医学文本挖掘研究提供标准化标注数据。

文件详解

文件名称: symptemist-complete_240208.zip
文件格式: ZIP压缩包
包含内容:
三个子任务的训练集与测试集
基于SNOMED的症状、体征和检查结果术语词表
九种语言（英语、葡萄牙语、法语、意大利语、罗马尼亚语、加泰罗尼亚语、瑞典语、荷兰语、捷克语）的银标准数据
一万五千余例临床病例背景集
西班牙语文本背景集的银标准预测数据（由参与者提供）

数据来源

巴塞罗那超级计算中心生物医学信息分析自然语言处理团队

适用场景

医学文本挖掘研究: 用于开发和评估西班牙语临床文本中症状、体征和检查结果的检测与标准化系统
多语言医学信息抽取: 支持九种语言的银标准数据可用于跨语言模型训练与迁移学习
术语标准化研究: 基于SNOMED术语词表的标注可用于医学术语映射与归一化算法开发
临床NLP基准测试: 作为BioCreative VIII挑战赛的官方数据集，可用于系统性能对比与评估

数据与资源

10635215.zipZIP
431.87 MiB

下载

附加信息

字段	值
作者	Maxj
版本	1
数据集大小	431.87 MiB
最后更新	2025年12月4日
创建于	2025年12月4日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。

智能助手

您好！我是海数据平台的智能助手，有什么可以帮助您的吗？