数据集概述
本数据集是论文《Improved annotation of enzyme-encoding genes using deep learning with transformer layers》的补充数据,包含酶编码基因功能注释相关的预测结果、序列可视化及基序分析等7份数据文件,支持深度学习在酶基因注释领域的研究验证。
文件详解
- 补充数据文件:
- Kim_etal_Supplementary_Data_1.xlsx:Excel格式,包含DeepECtransformer对Swiss-Prot数据库蛋白质序列的预测EC编号
- Kim_etal_Supplementary_Data_2.html:HTML格式,包含用TMAP可视化的Swiss-Prot数据库酶序列潜在表示
- Kim_etal_Supplementary_Data_3.zip:ZIP格式,包含DeepEC v2神经网络针对每个EC编号的常见高亮基序
- Kim_etal_Supplementary_Data_4.xlsx:Excel格式,包含每个菌株特异性等位基因的序列
- Kim_etal_Supplementary_Data_5.xlsx:Excel格式,包含y-ome蛋白质的EC编号预测结果
- Kim_etal_Supplementary_Data_6.tar.gz:GZ压缩格式,包含NCBI中70,600个基因组的128,100,490条蛋白质序列的EC编号
- Kim_etal_Supplementary_Data_7.xlsx:Excel格式,包含295个y-ome蛋白质的溶解度预测结果
适用场景
- 生物信息学研究:用于酶编码基因功能注释的深度学习模型验证
- 蛋白质组学分析:辅助解析菌株特异性等位基因序列特征
- 基因组学应用:支持大规模基因组蛋白质序列的EC编号注释
- 酶工程研究:助力y-ome蛋白质的功能预测与溶解度分析