数据集概述
本数据集是论文“Nano-Strainer: a workflow for identification of single-copy nuclear loci for plant systematic studies”的补充材料,包含工作流方法的详细描述、图形化工作流图、处理Nanopore目标捕获数据的脚本、参考序列及序列比对文件等,支持植物系统发育研究中单/低拷贝核分子标记的识别与验证。
文件详解
- 文档类文件
- 文件名称:README.md
- 文件格式:MD
- 字段映射介绍:数据集说明文档,包含文件内容描述、使用说明及原始论文信息
- 序列文件
- 文件名称:16_cluster_consensus_reads_alignment_good_marker_At3g05230.fasta、17_cluster_consensus_reads_alignment_bad_marker_At1g01050.fasta
- 文件格式:FASTA
- 字段映射介绍:包含标记基因座的簇 consensus 序列比对结果,区分高可信度(good)和低可信度(bad)标记
- 压缩包文件
- 文件名称:9_marker_references_FASTA.zip、10_marker_alignments_FASTA.zip
- 文件格式:ZIP
- 字段映射介绍:分别包含识别出的标记参考序列压缩包、标记序列比对结果压缩包
- 方法文档(隐含)
- 文件名称:1_detailed_methods.docx(根据描述推断)
- 文件格式:DOCX
- 字段映射介绍:工作流材料与方法的详细描述文档,含湿实验与分析流程说明
数据来源
论文“Nano-Strainer: a workflow for identification of single-copy nuclear loci for plant systematic studies, using target capture kits and Oxford Nanopore long reads”
适用场景
- 植物系统发育标记开发: 利用参考序列与比对结果,筛选适用于植物系统研究的单/低拷贝核基因座标记
- 目标捕获测序数据分析: 参考工作流脚本与方法,处理Oxford Nanopore目标捕获测序数据
- 植物分子系统学研究: 基于识别的标记开展植物类群的系统发育关系重建与进化分析
- 基因组 paralogy 检测: 结合CANU组装工具,分析多倍体或网状进化植物类群中的 paralogy 残留
- 生物信息学工作流复现: 参考详细方法文档与脚本,复现Nano-Strainer工作流的分析流程