-
WMT16_Based_Scielo生物医学翻译任务单语数据集
2026年2月8日 30 152 69
数据集概述 本数据集为第一届机器翻译会议(WMT'16)生物医学翻译任务提供的Scielo单语数据,包含英语、西班牙语、葡萄牙语、法语4种语言的生物医学相关文本,源自Scielo数据库,共7个XML文件,无目录层级划分。 文件详解 英文生物医学文件 文件名称:en-health.xml、en-biological.xml 文件格式:XML...
-
WMT16_Based_Medline生物医学翻译任务平行语料数据集
2026年1月25日 30 200 52
数据集概述 本数据集为WMT'16生物医学翻译任务提供的平行语料,源自Medline/PubMed数据库,包含西班牙语-英语、法语-英语、葡萄牙语-英语三种语言对的平行文本数据,支持生物医学领域的机器翻译模型训练与评估。 文件详解 文件名称:pubmed_en_pt.txt.zip 文件格式:ZIP 字段映射介绍:包含英语-葡萄牙语生物医学平行文本数据...
-
Biolinks_Source_科学出版物语义分布与相似性支持数据集
2026年1月23日 30 95 63
数据集概述 本数据集为Biolinks项目配套资源,包含科学出版物的语义标注、相似性矩阵、信息增益计算结果及相关算法与可视化组件。基于TREC-05集合的4240篇文献,提供标题摘要(TA)、标题摘要+全文(TAFT)、全文(FT)三种语义标注数据集,支持语义组分布评分与相似性计算,可用于生命科学领域文献检索的语义分析优化。 文件详解 标注与数据集文件...
-
MESINESP_Train_Based西班牙语医学语义索引训练数据集2019
2026年1月20日 30 31 4
数据集概述 本数据集为MESINESP西班牙语医学语义索引训练数据集,包含从虚拟健康图书馆(VHL)的LILACS和IBECS数据库中提取的369,368条西班牙语医学文献记录,涵盖科学文章、专利和临床试验等类型。数据分为原始训练集和预处理训练集,提供文献元数据、摘要及DeCS代码等信息,用于医学语义索引相关任务。 文件详解...
-
Pathway2Text_Based_生物医学通路描述生成数据集_NAACL2022
2026年1月18日 30 168 34
数据集概述 本数据集包含2367对生物医学通路与文本描述的配对数据,支持自动通路描述生成任务,也适用于Text2Graph和BioNER任务,是NAACL 2022相关论文的配套数据集。 文件详解 文件名称:pathway2text.zip 文件格式:ZIP(压缩包)...
-
UIMA_ConceptMapper_Based_2021_BioASQ语料库药物与癫痫本体术语标注字典数据
2025年12月28日 30 110 83
数据集概述 本数据集包含用于UIMA ConceptMapper工具的字典文件,用于对2021 BioASQ语料库进行药物名称及癫痫本体术语标注。字典分别源自DrugBank词汇库及NCBO BioPortal的EpSO、ESSO、EPILONT、EPISEM、FENICS五种癫痫本体,共六个XML格式文件,可支撑生物医学文本的语义实体识别与标注。...
-
生物医学文本本体富集数据集
2025年12月12日 30 141 77
数据集概述 本数据集是支持从生物医学文本中进行本体富集的资源,通过概念发现与定位实现。基于MedMentions数据集(PubMed摘要),适配2014和2017版SNOMED CT的疾病(障碍)子类别及临床发现、操作、药物/生物制品等更广泛类别,为生物医学本体研究提供数据支持。 文件详解 文件名称: OET-data-ver4.zip 文件格式:...
-
TBGA基因疾病关联生物医学关系抽取数据集
2025年12月7日 30 49 11
数据集概述 该数据集为TBGA,是用于基因-疾病关联(GDA)抽取的大规模半自动标注数据集,包含训练、验证、测试集文本文件及关系名称与ID映射的JSON文件,每条记录对应从句子中提取的单个GDA,以JSON对象结构存储相关信息。 文件详解 数据集压缩包: TBGA.zip,ZIP格式,包含TBGA文件夹及内部所有文件 训练集文本文件:...
-
机器学习模型训练与评估数据集MachineLearningModelTrainingandEvaluationDatasets-julianhardt
2025年5月26日 30 43 41
机器学习模型训练与评估数据集MachineLearningModelTrainingandEvaluationDatasets-julianhardt 数据来源:互联网公开数据 标签:机器学习, 模型评估, 神经网络, 数据挖掘, 分类任务, 葡萄酒质量, 生物医学文本, 国会投票记录, 网格搜索 数据概述:...
-
基因组生物医学事件数据集
2025年4月15日 30 153 41
基因组生物医学事件数据集 数据来源:互联网公开数据 标签:生物医学文本,事件标注,自然语言处理,NLP,药物效果分析,医学条件识别,数据集简化版 数据概述: 本数据集是GENIA事件标注数据集的简化版本,来源于TEES平台,基于BioNLP共享任务2011(BioNLP Shared Task...



