生物信息学研究中的大语言模型评估数据集

数据集概述

本数据集为生物信息学研究中大语言模型评估相关的研究资料,包含药物-药物相互作用预测任务的正负样本数据及多种模型生成的药物描述嵌入文件,支持复现大语言模型在生物信息学任务中的评估实验。

文件详解

  • 目录Section_A_ddi下的文件:
  • ddinter_positive_samples.csv:CSV格式,来自DDInter数据库的药物-药物相互作用阳性样本对
  • ddinter_negative_samples.csv:CSV格式,无已知相互作用的药物-药物相互作用阴性样本对,用于监督分类
  • drug_description_embeddings_all-mpnet-base-v2.npy:NPY格式,使用all-mpnet-base-v2模型生成的药物描述嵌入
  • drug_description_embeddings_bge-large-en-v1.5.npy:NPY格式,使用bge-large-en-v1.5模型生成的药物描述嵌入
  • drug_description_embeddings_e5-small-v2.npy:NPY格式,使用e5-small-v2模型生成的药物描述嵌入
  • drug_description_embeddings_gtr-t5-large.npy:NPY格式,使用gtr-t5-large模型生成的药物描述嵌入
  • drug_description_embeddings_text_embedding_3_large.npy:NPY格式,使用OpenAI text-embedding-3-large模型生成的药物描述嵌入
  • drug_description_embeddings_text_embedding_3_small.npy:NPY格式,使用OpenAI text-embedding-3-small模型生成的药物描述嵌入
  • drug_description_embeddings_text_embedding_ada_002.npy:NPY格式,使用OpenAI text-embedding-ada-002模型生成的药物描述嵌入

适用场景

  • 生物信息学大语言模型性能评估研究
  • 药物-药物相互作用预测模型开发与验证
  • 药物描述嵌入模型效果对比分析
  • 大语言模型在生物信息学任务中的应用潜力研究
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 58.11 MiB
最后更新 2025年12月9日
创建于 2025年12月9日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。