数据集概述
本数据集为Viridiplantae(绿色植物)非编码RNA(ncRNA)分类研究而构建,包含7类ncRNA的序列数据、特征数据及mRNA对照数据,用于训练多类SVM分类器NCodR,支持植物ncRNA的基因组预测与功能研究。
文件详解
- 非编码RNA序列文件:
- ncRNA_seqences.fa.tar.gz:压缩FASTA格式,含526,552条去冗余、去模糊碱基的ncRNA序列
- mRNA对照序列文件:
- mRNA_sequencs.fa.tar.gz:压缩FASTA格式,含17,026条mRNA序列(作为分类器训练的“其他”类别)
- 特征数据文件:
- ncRNAs_features.tar.gz:ncRNA序列的特征数据(含序列与RNA折叠相关特征)
- mRNA_features.tar.gz:mRNA序列的特征数据
- lncRNAs_PLncDB_features.tar.gz:来自PLncDB的lncRNA序列特征数据
- 测试用例文件:
- Test_Cases_lncRNAs.tar.gz:独立测试用lncRNA序列及预测结果
- 系统发育树文件:
- phyliptree.tar.gz:压缩格式,可能包含相关物种或序列的系统发育树数据
数据来源
RNACentral、PlantGDB、PLncDB、GREENC、CANTATAdb
适用场景
- 植物ncRNA分类模型训练:用于开发和验证ncRNA多类分类算法
- 植物基因组功能注释:辅助识别基因组中的ncRNA类型及功能预测
- 作物改良研究:为基于ncRNA的作物基因编辑技术提供数据支持
- 植物分子生物学研究:分析ncRNA序列特征与结构功能的关联
- 生物信息学工具开发:作为基准数据集测试ncRNA分类工具性能