药物基因相互作用临床意义提取数据集_FDA标签包

本数据集围绕从FDA批准药物标签的自由文本中提取药物基因相互作用的临床意义展开，通过大语言模型（LLMs）提取适应症、癌症类型及药物基因组学信息，并利用VICC归一化服务关联至标准化概念，补充DGIdb数据库中现有相互作用数据的治疗相关性。

数据文件：
openfda-04232024.xlsx：Excel格式，可能包含FDA标签原始数据或处理后的基础数据
ner_norm_results_20250128.csv：CSV格式，包含实体提取与归一化结果，字段示例：entity_group（实体类型如GENETIC）、score（置信度）、word（实体词如CYP2C19）、brand_name（药品名）、application_number（申请号）、concept_id（归一化概念ID）
entity-results.xlsx：Excel格式，可能记录实体提取的详细结果
linked-results-full.xlsx：Excel格式，可能包含关联至DGIdb相互作用记录的完整结果
图表文件：
Entity_Group_Bar_Chart.png：PNG格式，实体类型分布的条形图
代码文件：
01_ner_tagging.ipynb：Jupyter Notebook格式，实体识别与标注的代码流程
02_dgidb_link.ipynb：Jupyter Notebook格式，关联DGIdb数据库的代码流程
03_graph.ipynb：Jupyter Notebook格式，图表生成或可视化的代码流程

数据与资源

字段	值
作者	Maxj
版本	1
数据集大小	725.16 MiB
最后更新	2025年12月20日
创建于	2025年12月20日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。