蛋白质与编码序列整合语言模型数据集

数据集概述

本数据集围绕蛋白质与编码序列整合以增强语言模型的研究主题构建,包含训练数据、微调模型、多模态数据集及特征嵌入等多类文件,为相关领域的模型训练与分析提供数据支持。

文件详解

  • 根目录文件:
  • source_data.zip: ZIP压缩包,包含项目所有子目录及文件
  • TE_MRL目录:
  • MRL_dataset.zip: ZIP压缩包,多模态表示学习数据集
  • TE_dataset.zip: ZIP压缩包,转录组与表达数据集
  • finetuned_model目录:
  • FoldP: 微调模型文件,可能用于蛋白质折叠预测
  • LocP: 微调模型文件,可能用于蛋白质定位预测
  • SSP: 微调模型文件,可能用于蛋白质二级结构预测
  • SolP: 微调模型文件,可能用于蛋白质溶解性预测
  • tax_tsne目录:
  • emb_3models.zip: ZIP压缩包,三种模型的特征嵌入TSNE可视化数据
  • training_data目录:
  • FoldP.csv: CSV格式,蛋白质折叠预测训练数据
  • LocP.csv: CSV格式,蛋白质定位预测训练数据
  • SolP.csv: CSV格式,蛋白质溶解性预测训练数据
  • SSP.pkl: PKL格式,蛋白质二级结构预测训练数据
  • pretrain_source_GCF.txt: TXT格式,预训练数据源文件

适用场景

  • 生物信息学研究: 用于蛋白质结构与功能预测模型的训练与验证
  • 计算生物学分析: 支持编码序列与蛋白质序列的整合语言模型研究
  • 多模态学习应用: 可用于多模态表示学习的数据集构建与分析
  • 特征嵌入可视化: 适用于蛋白质特征嵌入的TSNE降维与聚类分析
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 429.07 MiB
最后更新 2025年12月22日
创建于 2025年12月22日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。