药物基因相互作用临床意义提取数据集_FDA标签包

数据集概述

本数据集围绕从FDA批准药物标签的自由文本中提取药物基因相互作用的临床意义展开,通过大语言模型(LLMs)提取适应症、癌症类型及药物基因组学信息,并利用VICC归一化服务关联至标准化概念,补充DGIdb数据库中现有相互作用数据的治疗相关性。

文件详解

  • 数据文件:
  • openfda-04232024.xlsx:Excel格式,可能包含FDA标签原始数据或处理后的基础数据
  • ner_norm_results_20250128.csv:CSV格式,包含实体提取与归一化结果,字段示例:entity_group(实体类型如GENETIC)、score(置信度)、word(实体词如CYP2C19)、brand_name(药品名)、application_number(申请号)、concept_id(归一化概念ID)
  • entity-results.xlsx:Excel格式,可能记录实体提取的详细结果
  • linked-results-full.xlsx:Excel格式,可能包含关联至DGIdb相互作用记录的完整结果
  • 图表文件:
  • Entity_Group_Bar_Chart.png:PNG格式,实体类型分布的条形图
  • 代码文件:
  • 01_ner_tagging.ipynb:Jupyter Notebook格式,实体识别与标注的代码流程
  • 02_dgidb_link.ipynb:Jupyter Notebook格式,关联DGIdb数据库的代码流程
  • 03_graph.ipynb:Jupyter Notebook格式,图表生成或可视化的代码流程

适用场景

  • 药物基因组学研究:分析FDA药物标签中的药物基因相互作用临床意义
  • 医疗数据标准化:探索LLMs与VICC服务在临床文本实体归一化中的应用
  • 数据库补充优化:为DGIdb等药物基因数据库补充治疗相关性数据
  • 变异解读 pipeline 开发:辅助基于突变状态的治疗方案筛选研究
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 725.16 MiB
最后更新 2025年12月20日
创建于 2025年12月20日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。