数据集概述
该数据集为“系统发育树中最小化到最近叶平均距离(ADCL)”研究提供支持,包含验证ADCL算法在嵌合序列等场景下行为的实验数据,涉及参考序列包、多序列比对、系统发育放置结果及嵌合序列标识等核心内容,助力相关算法性能评估与验证。
文件详解
该数据集包含多种格式的文件,具体说明如下:
- 文档说明文件(.txt格式):
- README_for_voronoi-validation.txt:Voronoi验证相关说明文档
- README_for_n-complexity.txt:n复杂度相关说明文档
- README_for_k-complexity.txt:k复杂度相关说明文档
- README_for_chimeras.txt:嵌合序列相关说明文档
- README_for_bootstrap.txt:bootstrap验证相关说明文档
- 压缩包文件(.zip格式):
- n-complexity.zip:n复杂度相关数据压缩包
- voronoi-validation.zip:Voronoi验证相关数据压缩包
- k-complexity.zip:k复杂度相关数据压缩包
- chimeras.zip:嵌合序列相关数据压缩包
- bootstrap.zip:bootstrap验证相关数据压缩包
- PDF文件(.pdf格式):
- voro_suppfig.pdf:Voronoi验证相关补充图表文档
- 核心序列数据(根据README内容):
- sequences/enterobacteriaceae.refpkg:肠杆菌科参考序列包(含5个物种代表序列及UCHIME识别的嵌合序列)
- sequences/merged.sto:用于系统发育放置的多序列比对文件
- sequences/merged.jplace:系统发育放置结果文件
- sequences/chim_ids.txt:嵌合序列名称标识文件
适用场景
- 系统发育算法研究:用于评估ADCL算法与PAM等启发式算法在系统发育树优化任务中的性能差异
- 生物信息学验证:验证ADCL算法在嵌合序列选择场景下的有效性,对比随机子集与系统发育多样性最大化策略
- 宏基因组分析:为宏基因组reads的系统发育放置选择合适参考树序列提供数据支持
- 计算生物学实验:支持系统发育树中序列子集选择相关的复杂度分析与验证实验