基因密码子使用频率研究数据集-多样性生物样本2011-salikhussaini49
数据来源:互联网公开数据
标签:基因密码子,使用频率,生物多样性,基因组,生物分类,科学,数据集
数据概述:
本数据集包含了大量来自不同生物分类群(细菌、古菌、病毒等)的基因组编码DNA中的基因密码子使用频率数据。数据来源于CUTG(Codon Usage Database)数据库,并进一步进行了手动整理和统一分类,包括将CUTG数据库中的细菌分类细化为古菌(arc)、质粒(plm)和细菌(bct)。通过从原数据库文件中提取不同属名并进行重新分类,最终包含了514个不同属的基因密码子使用频率数据。
数据集字段说明如下:
- 第1列:界(Kingdom),3个字母代码,对应CUTG数据库中的生物分类,如arc(古菌)、bct(细菌)、pln(植物)等。
- 第2列:DNA类型(DNAtype),整数表示基因组组成类型,如0表示基因组DNA,1表示线粒体DNA等。
- 第3列:物种标识符(SpeciesID),整数唯一标识每种生物,对应原始CUTG数据库中的物种编号。
- 第4列:密码子数量(Ncodons),表示该物种基因组中所有密码子的总数量。
- 第5列:物种名称(SpeciesName),字符串表示物种名称,用于数据解释和描述。
- 第6列至第69列:具体密码子的使用频率(codon),表头为密码子的核苷酸序列,数据为5位小数表示的使用频率。
数据用途概述:
该数据集适用于基因密码子使用频率的研究、生物分类学分析、遗传学研究以及相关领域的教学。研究人员可以利用此数据集探索不同物种之间基因密码子使用的差异,了解基因组特征及其进化的规律;教育者可以将其用于遗传学和分子生物学的教学演示;生物信息学家可以利用数据进行基因密码子使用频率的统计分析,支持生物学研究和理论发展。