GenePT_Gene_Embeddings_Based_基因与细胞基础模型完整嵌入数据

数据集概述

该数据集包含人类基因的NCBI及UniProt(如适用)摘要文本,以及基于这些摘要通过OpenAI的text-embedding-ada-002和text-embedding-3-large模型生成的基因嵌入数据,为基因与细胞基础模型GenePT提供支持。

文件详解

  • 文件名称: NCBI_summary_of_genes.json
  • 文件格式: JSON
  • 内容: 人类基因的NCBI基因卡片摘要数据
  • 文件名称: NCBI_UniProt_summary_of_genes.json
  • 文件格式: JSON
  • 内容: 人类基因的NCBI基因卡片及UniProt蛋白质(如适用)的合并摘要数据
  • 文件名称: GenePT_gene_embedding_ada_text.pickle
  • 文件格式: Pickle
  • 内容: 字典结构数据,键为大写基因名称,值为基于NCBI摘要通过text-embedding-ada-002模型生成的numpy数组嵌入
  • 文件名称: GenePT_gene_protein_embedding_model_3_text.pickle
  • 文件格式: Pickle
  • 内容: 字典结构数据,键为大写基因名称,值为基于NCBI-UniProt合并摘要通过text-embedding-3-large模型生成的numpy数组嵌入

适用场景

  • 基因功能注释研究: 利用基因嵌入分析基因功能关联与注释
  • 细胞生物学研究: 支持细胞类型识别或细胞状态分析的基础模型构建
  • 生物信息学算法开发: 用于基因相关机器学习模型的特征工程
  • 基因表达数据分析: 辅助基因表达谱的聚类与差异分析
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 547.79 MiB
最后更新 2025年12月11日
创建于 2025年12月11日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。