数据集概述
本数据集包含植物基因组中除LTR反转录转座子(LTR_RTs)外的其他基因组特征序列,作为机器学习检测LTR_RTs的阴性实例。数据来源于InpactorDB及多个植物基因组数据库,涵盖编码序列、各类RNA及非LTR类转座元件,为相关模型训练提供负样本支持。
文件详解
- 文件名称:negative_instances_raw.zip
- 文件格式:ZIP
- 字段映射介绍:压缩包内为原始格式的阴性实例数据,包含植物基因组中编码序列(CDS)、mRNA/tRNA/非编码RNA等各类RNA序列,以及II类转座元件、PLEs、DIRs、LINEs、SINEs等非LTR类转座元件序列。
数据来源
InpactorDB(DOI 10.5281/zenodo.4386316)、PGSB PlantsDB、Repbase (v. 20.05, 2017)、RepetDB、Ensembl Plants、JGI(Joint Genome Institute)
适用场景
- 机器学习模型训练: 作为阴性样本用于训练LTR反转录转座子检测模型,提升模型对目标序列的识别精度。
- 基因组特征分析: 研究植物基因组中各类非LTR反转录转座子元件的序列特征与分布规律。
- 生物信息学算法验证: 验证LTR_RTs检测算法在复杂基因组背景下的特异性与鲁棒性。
- 植物基因组学研究: 辅助分析植物基因组中转座元件的组成结构及进化关系。