数据集概述
本数据集为植物特化代谢基因的种内及跨物种预测研究提供支持,包含两类特征数据集(全特征、共享特征)及六张补充表格,涵盖基因特征、注释、模型得分、预测结果、特征重要性、统计分析及RNAseq数据等内容,共八个Excel文件,用于机器学习模型训练与分析。
文件详解
- 数据集文件
- Dataset_S1_features.xlsx:XLSX格式,全特征机器学习模型使用的基因特征数据,包含表达、共表达、进化、复制及蛋白质结构域特征
- Dataset_S2_shared-features.xlsx:XLSX格式,共享特征机器学习模型使用的基因特征数据,包含表达、进化、复制及蛋白质结构域特征
- 补充表格文件
- Table_S1_annotations_final.xlsx:XLSX格式,所有基因的TomatoCyc注释或人工注释数据
- Table_S2_model_scores_final.xlsx:XLSX格式,所有模型的得分数据
- Table_S3_scores_matrix_final.xlsx:XLSX格式,各模型的基因得分及预测结果数据
- Table_S4_featureimp_final.xlsx:XLSX格式,5个模型的特征重要性数据
- Table_S5_stats_final.xlsx:XLSX格式,二元及连续特征数据的类间统计分析结果
- Table_S6_RNAseq_final.xlsx:XLSX格式,分析中使用的RNAseq数据集信息
数据来源
论文“Within and cross species predictions of plant specialized metabolism genes using transfer learning”
适用场景
- 植物基因功能预测研究:用于训练和评估植物特化代谢基因的种内及跨物种预测模型
- 机器学习特征分析:分析不同特征(表达、进化、蛋白质结构域等)对基因预测模型的影响
- 植物代谢组学研究:辅助解析植物特化代谢通路的基因调控机制
- 生物信息学模型优化:基于模型得分、特征重要性数据优化机器学习预测模型
- 基因注释数据整合:结合TomatoCyc注释及人工注释数据完善植物基因功能注释体系