酶编码基因功能注释深度学习研究补充数据集

数据集概述

本数据集是论文《Improved annotation of enzyme-encoding genes using deep learning with transformer layers》的补充数据,包含酶编码基因功能注释相关的预测结果、序列可视化及基序分析等7份数据文件,支持深度学习在酶基因注释领域的研究验证。

文件详解

  • 补充数据文件:
  • Kim_etal_Supplementary_Data_1.xlsx:Excel格式,包含DeepECtransformer对Swiss-Prot数据库蛋白质序列的预测EC编号
  • Kim_etal_Supplementary_Data_2.html:HTML格式,包含用TMAP可视化的Swiss-Prot数据库酶序列潜在表示
  • Kim_etal_Supplementary_Data_3.zip:ZIP格式,包含DeepEC v2神经网络针对每个EC编号的常见高亮基序
  • Kim_etal_Supplementary_Data_4.xlsx:Excel格式,包含每个菌株特异性等位基因的序列
  • Kim_etal_Supplementary_Data_5.xlsx:Excel格式,包含y-ome蛋白质的EC编号预测结果
  • Kim_etal_Supplementary_Data_6.tar.gz:GZ压缩格式,包含NCBI中70,600个基因组的128,100,490条蛋白质序列的EC编号
  • Kim_etal_Supplementary_Data_7.xlsx:Excel格式,包含295个y-ome蛋白质的溶解度预测结果

适用场景

  • 生物信息学研究:用于酶编码基因功能注释的深度学习模型验证
  • 蛋白质组学分析:辅助解析菌株特异性等位基因序列特征
  • 基因组学应用:支持大规模基因组蛋白质序列的EC编号注释
  • 酶工程研究:助力y-ome蛋白质的功能预测与溶解度分析
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 661.92 MiB
最后更新 2025年12月15日
创建于 2025年12月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。