跨物种植物专化代谢基因预测数据

数据集概述

本数据集为植物特化代谢基因的种内及跨物种预测研究提供支持,包含两类特征数据集(全特征、共享特征)及六张补充表格,涵盖基因特征、注释、模型得分、预测结果、特征重要性、统计分析及RNAseq数据等内容,共八个Excel文件,用于机器学习模型训练与分析。

文件详解

  • 数据集文件
  • Dataset_S1_features.xlsx:XLSX格式,全特征机器学习模型使用的基因特征数据,包含表达、共表达、进化、复制及蛋白质结构域特征
  • Dataset_S2_shared-features.xlsx:XLSX格式,共享特征机器学习模型使用的基因特征数据,包含表达、进化、复制及蛋白质结构域特征
  • 补充表格文件
  • Table_S1_annotations_final.xlsx:XLSX格式,所有基因的TomatoCyc注释或人工注释数据
  • Table_S2_model_scores_final.xlsx:XLSX格式,所有模型的得分数据
  • Table_S3_scores_matrix_final.xlsx:XLSX格式,各模型的基因得分及预测结果数据
  • Table_S4_featureimp_final.xlsx:XLSX格式,5个模型的特征重要性数据
  • Table_S5_stats_final.xlsx:XLSX格式,二元及连续特征数据的类间统计分析结果
  • Table_S6_RNAseq_final.xlsx:XLSX格式,分析中使用的RNAseq数据集信息

数据来源

论文“Within and cross species predictions of plant specialized metabolism genes using transfer learning”

适用场景

  • 植物基因功能预测研究:用于训练和评估植物特化代谢基因的种内及跨物种预测模型
  • 机器学习特征分析:分析不同特征(表达、进化、蛋白质结构域等)对基因预测模型的影响
  • 植物代谢组学研究:辅助解析植物特化代谢通路的基因调控机制
  • 生物信息学模型优化:基于模型得分、特征重要性数据优化机器学习预测模型
  • 基因注释数据整合:结合TomatoCyc注释及人工注释数据完善植物基因功能注释体系
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 284.46 MiB
最后更新 2026年2月12日
创建于 2026年2月12日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。