数据集概述
本数据集包含1998至2006年HIV-1蛋白酶序列及相关分析脚本,用于研究强选择压力下蛋白质长期进化中的 epistatic 相互作用。数据来自经治疗和未治疗患者的蛋白酶序列,支持分析残基间协同变异、选择压力对 epistasis 的影响及蛋白质适应性变化,共6个文件。
文件详解
- 文档文件(.txt)
- 文件名称:README_for_scripts.zip.txt、README_for_protease_sequences_1998_to_2006.zip.txt
- 文件格式:TXT
- 字段映射介绍:数据集元数据说明,包括文件内容描述、使用方法及联系信息
- 存档文件(.zip)
- 文件名称:longitudinal_protease_sequences.zip、scripts.zip、protease_sequences_1998_to_2006.zip
- 文件格式:ZIP
- 字段映射介绍:包含1998-2006年蛋白酶序列多序列比对文件(.consensus_added)、残基位置计数文件(.consensus_added_dict_pos.txt)及分析脚本
- 代码文件(.ipynb)
- 文件名称:Figure_generator.ipynb
- 文件格式:IPYNB
- 字段映射介绍:用于生成研究相关图表的Jupyter Notebook脚本
数据来源
Dryad(数据存储平台)
适用场景
- 蛋白质进化 epistasis 研究: 分析HIV-1蛋白酶残基间协同变异及强选择压力对 epistatic 相互作用的影响
- 抗病毒治疗耐药性机制分析: 研究经治疗患者蛋白酶序列进化与药物压力的关系
- 生物信息学方法验证: 利用序列数据测试 epistasis 检测的信息论方法
- 蛋白质适应性进化建模: 基于长期序列数据构建蛋白质在变化环境中的进化轨迹模型