数据集概述
本数据集围绕莎草科(Cyperaceae)系统发育研究展开,包含基于超级矩阵方法构建的系统发育树文件、基因序列比对数据、分析脚本及附录文档,支持探究超级矩阵方法在系统发育推断中的应用价值。
文件详解
- 系统发育树文件(.tre格式,共5个):
- phase_2_contree_all_genes_stable_tips.tre:基于所有基因、稳定分支的一致树
- phase_4_contree_has_ndhf_or_rbcl_stable_tips.tre:包含ndhf或rbcl基因、稳定分支的一致树
- phase_1_contree_all_taxa_all_genes_all_tips.tre:包含所有类群、基因和分支的初始一致树
- phase_3_contree_has_ndhf_or_rbcl_no_bad_taxa.tre:包含ndhf或rbcl基因、过滤异常类群的一致树
- phase_2.5_contree_has_ndhf_or_rbcl_all_tips.tre:包含ndhf或rbcl基因、所有分支的中间阶段一致树
- 序列比对数据(.reduced格式,共4个):
- phase1_at_nf.phy.reduced:阶段1的简约化多基因比对文件
- phase4_sc_rf.phy.reduced:阶段4的简约化多基因比对文件
- phase3_sc_nf.phy.reduced:阶段3的简约化多基因比对文件
- phase2_at_rf.phy.reduced:阶段2的简约化多基因比对文件
- 分析脚本(.py格式,共3个):
- filter_fasta.py:FASTA序列过滤脚本
- instability_multicore.py:多核心计算分支不稳定性的脚本
- makesamplingmatrix.py:生成抽样矩阵的脚本
- 附录文档(.pdf格式,共2个):
- Appendix_I.pdf:附录1,包含研究方法或补充数据说明
- Appendix_II.pdf:附录2,包含研究结果或补充分析说明
- 分类特征数据(.csv格式,1个):
- cyp_states.csv:包含类群热带属性的分类特征表,字段为name(类群名称)、tropical(热带属性标记,1表示热带)
适用场景
- 系统发育生物学研究:验证超级矩阵方法在处理高缺失数据时的有效性
- 莎草科分类学研究:分析类群间的系统发育关系及分支稳定性
- 计算生物学方法开发:评估分支不稳定性统计量(IS)的应用价值
- 生物信息学教学:作为超级矩阵分析流程的案例数据