数据集概述
本数据集为生物信息学研究中大语言模型评估相关的研究资料,包含药物-药物相互作用预测任务的正负样本数据及多种模型生成的药物描述嵌入文件,支持复现大语言模型在生物信息学任务中的评估实验。
文件详解
- 目录Section_A_ddi下的文件:
- ddinter_positive_samples.csv:CSV格式,来自DDInter数据库的药物-药物相互作用阳性样本对
- ddinter_negative_samples.csv:CSV格式,无已知相互作用的药物-药物相互作用阴性样本对,用于监督分类
- drug_description_embeddings_all-mpnet-base-v2.npy:NPY格式,使用all-mpnet-base-v2模型生成的药物描述嵌入
- drug_description_embeddings_bge-large-en-v1.5.npy:NPY格式,使用bge-large-en-v1.5模型生成的药物描述嵌入
- drug_description_embeddings_e5-small-v2.npy:NPY格式,使用e5-small-v2模型生成的药物描述嵌入
- drug_description_embeddings_gtr-t5-large.npy:NPY格式,使用gtr-t5-large模型生成的药物描述嵌入
- drug_description_embeddings_text_embedding_3_large.npy:NPY格式,使用OpenAI text-embedding-3-large模型生成的药物描述嵌入
- drug_description_embeddings_text_embedding_3_small.npy:NPY格式,使用OpenAI text-embedding-3-small模型生成的药物描述嵌入
- drug_description_embeddings_text_embedding_ada_002.npy:NPY格式,使用OpenAI text-embedding-ada-002模型生成的药物描述嵌入
适用场景
- 生物信息学大语言模型性能评估研究
- 药物-药物相互作用预测模型开发与验证
- 药物描述嵌入模型效果对比分析
- 大语言模型在生物信息学任务中的应用潜力研究