数据集概述
本数据集包含用于UIMA ConceptMapper工具的字典文件,用于对2021 BioASQ语料库进行药物名称及癫痫本体术语标注。字典分别源自DrugBank词汇库及NCBO BioPortal的EpSO、ESSO、EPILONT、EPISEM、FENICS五种癫痫本体,共六个XML格式文件,可支撑生物医学文本的语义实体识别与标注。
文件详解
- Dict_DrugNames.xml
- 文件格式:XML
- 字段映射介绍:基于DrugBank词汇库构建的药物名称字典,用于识别文本中的药物实体
- Dict_EpSO.xml
- 文件格式:XML
- 字段映射介绍:基于NCBO BioPortal EpSO本体构建的癫痫相关术语字典
- Dict_ESSO.xml
- 文件格式:XML
- 字段映射介绍:基于NCBO BioPortal ESSO本体构建的癫痫相关术语字典
- Dict_EPILONT.xml
- 文件格式:XML
- 字段映射介绍:基于NCBO BioPortal EPILONT本体构建的癫痫相关术语字典
- Dict_EPISEM.xml
- 文件格式:XML
- 字段映射介绍:基于NCBO BioPortal EPISEM本体构建的癫痫相关术语字典
- Dict_FENICS.xml
- 文件格式:XML
- 字段映射介绍:基于NCBO BioPortal FENICS本体构建的癫痫相关术语字典
数据来源
NCBO BioPortal、DrugBank、2021 BioASQ Corpus相关研究
适用场景
- 生物医学文本语义标注:用于UIMA ConceptMapper工具对BioASQ等生物医学语料库进行药物与癫痫术语的自动识别与标注
- 癫痫药理学研究:支撑癫痫相关文献中药物实体与疾病术语的提取,助力癫痫药理学分析
- 生物医学本体应用:验证EpSO、ESSO等癫痫本体在真实语料中的术语覆盖度与标注效果
- 生物医学信息检索优化:通过语义标注提升生物医学文献检索的精准度与召回率