Viridiplantae非编码RNA多类分类数据集

数据集概述

本数据集为Viridiplantae(绿色植物)非编码RNA(ncRNA)分类研究而构建,包含7类ncRNA的序列数据、特征数据及mRNA对照数据,用于训练多类SVM分类器NCodR,支持植物ncRNA的基因组预测与功能研究。

文件详解

  • 非编码RNA序列文件:
  • ncRNA_seqences.fa.tar.gz:压缩FASTA格式,含526,552条去冗余、去模糊碱基的ncRNA序列
  • mRNA对照序列文件:
  • mRNA_sequencs.fa.tar.gz:压缩FASTA格式,含17,026条mRNA序列(作为分类器训练的“其他”类别)
  • 特征数据文件:
  • ncRNAs_features.tar.gz:ncRNA序列的特征数据(含序列与RNA折叠相关特征)
  • mRNA_features.tar.gz:mRNA序列的特征数据
  • lncRNAs_PLncDB_features.tar.gz:来自PLncDB的lncRNA序列特征数据
  • 测试用例文件:
  • Test_Cases_lncRNAs.tar.gz:独立测试用lncRNA序列及预测结果
  • 系统发育树文件:
  • phyliptree.tar.gz:压缩格式,可能包含相关物种或序列的系统发育树数据

数据来源

RNACentral、PlantGDB、PLncDB、GREENC、CANTATAdb

适用场景

  • 植物ncRNA分类模型训练:用于开发和验证ncRNA多类分类算法
  • 植物基因组功能注释:辅助识别基因组中的ncRNA类型及功能预测
  • 作物改良研究:为基于ncRNA的作物基因编辑技术提供数据支持
  • 植物分子生物学研究:分析ncRNA序列特征与结构功能的关联
  • 生物信息学工具开发:作为基准数据集测试ncRNA分类工具性能
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 251.1 MiB
最后更新 2025年11月28日
创建于 2025年11月27日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。