数据集概述
本数据集围绕从FDA批准药物标签的自由文本中提取药物基因相互作用的临床意义展开,通过大语言模型(LLMs)提取适应症、癌症类型及药物基因组学信息,并利用VICC归一化服务关联至标准化概念,补充DGIdb数据库中现有相互作用数据的治疗相关性。
文件详解
- 数据文件:
- openfda-04232024.xlsx:Excel格式,可能包含FDA标签原始数据或处理后的基础数据
- ner_norm_results_20250128.csv:CSV格式,包含实体提取与归一化结果,字段示例:entity_group(实体类型如GENETIC)、score(置信度)、word(实体词如CYP2C19)、brand_name(药品名)、application_number(申请号)、concept_id(归一化概念ID)
- entity-results.xlsx:Excel格式,可能记录实体提取的详细结果
- linked-results-full.xlsx:Excel格式,可能包含关联至DGIdb相互作用记录的完整结果
- 图表文件:
- Entity_Group_Bar_Chart.png:PNG格式,实体类型分布的条形图
- 代码文件:
- 01_ner_tagging.ipynb:Jupyter Notebook格式,实体识别与标注的代码流程
- 02_dgidb_link.ipynb:Jupyter Notebook格式,关联DGIdb数据库的代码流程
- 03_graph.ipynb:Jupyter Notebook格式,图表生成或可视化的代码流程
适用场景
- 药物基因组学研究:分析FDA药物标签中的药物基因相互作用临床意义
- 医疗数据标准化:探索LLMs与VICC服务在临床文本实体归一化中的应用
- 数据库补充优化:为DGIdb等药物基因数据库补充治疗相关性数据
- 变异解读 pipeline 开发:辅助基于突变状态的治疗方案筛选研究