数据集概述
本数据集是论文“Assessing Structural Classification Using AlphaFold2 Models through ECOD-based Comparative Analysis”的补充Excel文件,包含2个文件,分别记录分析所用的ECOD结构域名称及3D结构比较工具(MATRAS、Dali、Foldseek)和序列比对工具(BLAST、HHsearch)的阈值分数及对应性能指标,用于支持蛋白质结构分类评估研究。
文件详解
- SuppExcel1_domain_lst.xlsx
- 文件格式:XLSX
- 字段映射介绍:存储分析过程中使用的ECOD结构域名称列表,为蛋白质结构分类的基础参考数据。
- SuppExcel2_score_thresholds.xlsx
- 文件格式:XLSX
- 字段映射介绍:包含3D结构比较工具(MATRAS、Dali、Foldseek)和序列比对工具(BLAST、HHsearch)的阈值分数,以及对应阈值下的F值、召回率(Recall)和精确率(Precision)指标。
数据来源
论文“Assessing Structural Classification Using AlphaFold2 Models through ECOD-based Comparative Analysis”
适用场景
- 蛋白质结构分类方法评估: 利用阈值分数及性能指标,分析AlphaFold2模型在ECOD分类体系下的结构分类准确性。
- 生物信息学工具性能对比: 比较MATRAS、Dali、Foldseek等3D结构工具与BLAST、HHsearch序列工具的结构分类效果差异。
- 蛋白质结构域研究: 基于ECOD结构域名称列表,开展特定结构域的分布特征或功能关联分析。
- 计算生物学阈值优化: 探索不同工具在蛋白质结构分类任务中的最优阈值设置策略。