数据集概述
本数据集为Arcadia Science相关研究的配套数据,聚焦人类疾病相关重复序列扩增在不同生物中的分布情况,包含考拉种群测序的重复序列计数结果、与人类重复扩增蛋白同源的序列/结构相似性比对结果、相关氨基酸序列文件及分类学分析表格等,共15个文件,支持跨物种重复序列扩增的生物信息学研究。
文件详解
- 考拉重复序列分析文件
- 文件名称:koala_repeat_length_outliers.xlsx、full_koala_results.txt
- 文件格式:XLSX、TXT
- 字段映射介绍:记录考拉种群测序数据中重复序列长度异常值及重复序列扩增计数结果
- 同源性比对结果文件
- 文件名称:full_results_20230802_foldseekandblast.csv、unfilteredblast_dREhomologs_20230802.csv
- 文件格式:CSV
- 字段映射介绍:包含与人类重复扩增蛋白的序列/结构相似性比对信息,字段涉及物种学名、分类ID、比对得分、E值、序列一致性等
- 分类学与重复序列阈值分析文件
- 文件名称:taxid_exceeds_healthy_human_max_20230802.csv、binarized_taxid_exceeds_healthy_human_max_20230821.csv、ndREhitsav_exceeds_special.csv、ndREhitsav_matches_special.csv
- 文件格式:CSV
- 字段映射介绍:记录不同物种对健康人类重复序列长度最大值的超出情况,部分文件为二值化格式,包含AR、ARX等多个基因的重复序列扩增状态
- 系统发育树文件
- 文件名称:exceedstree081423.txt、finaltree0815.txt
- 文件格式:TXT
- 字段映射介绍:存储跨物种的系统发育树结构信息,涉及刺胞动物、扁形动物等类群的分类学关系
- 氨基酸序列归档文件
- 文件名称:foldseek_aa_fasta.zip、aacountingreults.zip
- 文件格式:ZIP
- 字段映射介绍:压缩包内包含foldseek比对得到的重复扩增蛋白同源序列的氨基酸FASTA文件及氨基酸计数结果相关文件
数据来源
Arcadia Science相关研究论文《Repeat expansions associated with human disease are present in diverse organisms》
适用场景
- 跨物种重复序列扩增研究: 分析人类疾病相关重复序列在不同生物中的分布模式与进化保守性
- 疾病相关重复序列功能分析: 结合同源性比对结果探究重复序列扩增的潜在功能及与疾病的关联机制
- 物种分类学与重复序列关联研究: 利用系统发育树与分类学表格,研究重复序列扩增在物种演化中的规律
- 考拉种群重复序列特征分析: 基于考拉种群测序数据,解析特定物种重复序列长度异常及扩增的特征
- 生物信息学方法验证: 作为重复序列计数、同源性比对等生物信息分析方法的验证数据集