生物信息学研究中的大语言模型评估数据集

本数据集为生物信息学研究中大语言模型评估相关的研究资料，包含药物-药物相互作用预测任务的正负样本数据及多种模型生成的药物描述嵌入文件，支持复现大语言模型在生物信息学任务中的评估实验。

目录Section_A_ddi下的文件：
ddinter_positive_samples.csv：CSV格式，来自DDInter数据库的药物-药物相互作用阳性样本对
ddinter_negative_samples.csv：CSV格式，无已知相互作用的药物-药物相互作用阴性样本对，用于监督分类
drug_description_embeddings_all-mpnet-base-v2.npy：NPY格式，使用all-mpnet-base-v2模型生成的药物描述嵌入
drug_description_embeddings_bge-large-en-v1.5.npy：NPY格式，使用bge-large-en-v1.5模型生成的药物描述嵌入
drug_description_embeddings_e5-small-v2.npy：NPY格式，使用e5-small-v2模型生成的药物描述嵌入
drug_description_embeddings_gtr-t5-large.npy：NPY格式，使用gtr-t5-large模型生成的药物描述嵌入
drug_description_embeddings_text_embedding_3_large.npy：NPY格式，使用OpenAI text-embedding-3-large模型生成的药物描述嵌入
drug_description_embeddings_text_embedding_3_small.npy：NPY格式，使用OpenAI text-embedding-3-small模型生成的药物描述嵌入
drug_description_embeddings_text_embedding_ada_002.npy：NPY格式，使用OpenAI text-embedding-ada-002模型生成的药物描述嵌入

数据与资源

字段	值
作者	Maxj
版本	1
数据集大小	58.11 MiB
最后更新	2025年12月9日
创建于	2025年12月9日
声明	当前数据集部分源数据来源于公开互联网，如果有侵权，请24小时联系删除(400-600-6816)。