数据集概述
本数据集为长鼻目古蛋白质组参考数据集,通过PaleoProPhyler工具翻译35个以上现存及灭绝长鼻目物种的公开全基因组序列生成。包含物种个体元数据、目标蛋白质列表、所有生成的蛋白质序列,以及按蛋白质和样本分类的序列文件,支持长鼻目物种的古蛋白质组学研究。
文件详解
- 压缩包文件:PRD.zip
- 文件格式:ZIP
- 包含内容:
- METATADATA.txt:制表符分隔文件,含个体列表、原始fastq仓库位置、物种信息(主要为非洲象、亚洲象、猛犸象)
- proteins.txt:目标蛋白质列表,含262种在牙齿、骨骼或象牙中鉴定的蛋白质
- ALL_PROT_REFERENCE.fa:所有生成的蛋白质序列
- PER_PROTEIN文件夹:按蛋白质分类的fasta文件,每个文件含所有个体的该蛋白质序列
- PER_SAMPLE文件夹:按样本分类的fasta文件,每个文件含该样本的所有蛋白质序列
适用场景
- 长鼻目物种演化研究:通过蛋白质序列分析现存与灭绝长鼻目物种的亲缘关系及演化路径
- 古蛋白质组学方法验证:作为参考数据集测试古蛋白质鉴定、序列比对等分析工具的准确性
- 古生物样本溯源:利用参考序列比对未知古生物样本的蛋白质,确定物种归属
- 蛋白质功能演化分析:研究长鼻目特有蛋白质(如象牙相关蛋白)的功能变化及适应性演化