数据集概述
该数据集为长读长蛋白质基因组学方法提供测试数据,该方法整合长读长RNA测序与质谱蛋白质组学数据以增强蛋白质异构体表征,包含转录本、肽段、基因注释等相关测试文件。
文件详解
该数据集包含122个文件,主要类型及示例如下:
- 数据文件(.tsv格式):如sqanti_isoform_info.tsv(异构体信息表)、gencode_isoname_clusters.tsv(基因异构体聚类表)、jurkat_chr22_classification.5degfilter.tsv(异构体分类表)
- 基因注释文件(.gtf格式):如jurkat_chr22_hybrid_peptides.gtf(杂交肽段注释)、jurkat_chr22_with_cds_refined.gtf(编码序列注释)
- 序列文件(.fasta格式):如jurkat_chr22.filtered_protein.fasta(过滤后的蛋白质序列)、gencode.v35.pc_translations.fa.gz(蛋白翻译序列压缩包)
- 结构注释文件(.bed12格式):如jurkat_chr22_filtered_shaded_peptides.bed12(肽段结构注释)
- 日志与报告文件:如CPAT_run_info.log(CPAT分析日志)、jurkat_chr22_sqanti_report.pdf(异构体分析报告)
- 配置文件(.toml格式):如Task1SearchTaskconfig.toml(搜索任务配置)
适用场景
- 蛋白质组学研究:测试长读长转录组数据整合的蛋白质异构体检测方法
- 生物信息学分析:验证长读长蛋白质基因组学工作流的准确性
- 转录组学研究:探索长读长RNA测序数据在蛋白质异构体表征中的应用
- 计算生物学工具开发:为蛋白质推断算法提供测试数据