CT_EBM_SP_Based_西班牙循证医学临床试验标注语料数据

数据集概述

本数据集为西班牙循证医学临床试验语料库(CT-EBM-SP),包含一千二百篇西班牙语临床试验相关文本(共二十九万二千一百七十三个词元),涵盖五百篇期刊摘要及七百篇临床试验公告,标注有解剖学、药理化学物质等四类医学实体,适用于医学自然语言处理研究。

文件详解

  • 文件名称:CT-EBM-SP.zip
  • 文件格式:ZIP
  • 字段映射介绍:压缩包内含一千二百篇西班牙语临床试验相关文本,所有文本均标注有来自统一医学语言系统的四类语义组实体:解剖学(ANAT)、药理和化学物质(CHEM)、病理学(DISO)、实验室检测及诊疗程序(PROC),标注实体总数为四万六千六百九十九个,其中百分之十三点九八为嵌套实体。

适用场景

  • 医学自然语言处理模型训练: 用于西班牙语医疗文本的实体识别、关系抽取等模型开发与优化。
  • 循证医学研究: 辅助分析西班牙语临床试验文献中的医学实体分布及关联规律。
  • 医学语义标注评估: 基于双重标注样本及标注一致性数据,开展医学文本标注方法的准确性验证。
  • 多语言医疗语料库构建: 作为西班牙语医学语料资源,补充多语言医疗自然语言处理研究的语料覆盖。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 2.46 MiB
最后更新 2026年1月27日
创建于 2026年1月27日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。