蛋白质序列特征预测多任务基准数据集-djokester
数据来源:互联网公开数据
标签:蛋白质,生物信息学,机器学习,结构预测,功能预测,PTM,二元分类,多分类,回归分析
数据概述:
本数据集整合了多个蛋白质序列特征预测任务的基准数据集,旨在为蛋白质研究和机器学习提供统一的评估平台。数据集涵盖了蛋白质结构、功能和理化性质的多个方面,包括二级结构、无序区域、远程同源性、折叠类别、信号肽、主要翻译后修饰(PTMs)、神经肽切割、荧光强度和稳定性等。
数据用途概述:
该数据集适用于蛋白质结构与功能预测、机器学习模型评估、生物信息学研究等多种场景。研究人员可以利用此数据训练和评估蛋白质序列分析模型,探索蛋白质结构与功能之间的关系;机器学习工程师可以将其作为多任务学习的基准,开发更强大的蛋白质预测算法;数据集也适用于教育和培训,帮助学习者理解蛋白质序列分析的基本概念和方法。
数据集详细信息:
-
蛋白质结构预测
- 任务:二级结构预测
- 目标类型:多分类(3类)
- 预测范围:局部
- 训练序列数量:8,678
- 数据来源:(Moult et al., 2018; Rao et al., 2019)
-
蛋白质结构预测
- 任务:无序区域预测
- 目标类型:二元分类
- 预测范围:局部
- 训练序列数量:8,678
- 数据来源:(Moult et al., 2018)
-
蛋白质结构预测
- 任务:远程同源性预测
- 目标类型:多分类(1,195类)
- 预测范围:全局
- 训练序列数量:12,312
- 数据来源:(Andreeva et al., 2014, 2020; Rao et al., 2019)
-
蛋白质结构预测
- 任务:折叠类别预测
- 目标类型:多分类(7类)
- 预测范围:全局
- 训练序列数量:15,680
- 数据来源:(Andreeva et al., 2014, 2020)
-
蛋白质功能预测
- 任务:信号肽预测
- 目标类型:二元分类
- 预测范围:全局
- 训练序列数量:16,606
- 数据来源:(Armenteros et al., 2019)
-
蛋白质功能预测
- 任务:主要PTMs预测
- 目标类型:二元分类
- 预测范围:局部
- 训练序列数量:43,356
- 数据来源:(Hornbeck et al., 2015)
-
蛋白质功能预测
- 任务:神经肽切割位点预测
- 目标类型:二元分类
- 预测范围:局部
- 训练序列数量:2,727
- 数据来源:(Ofer and Linial 2014, 2015; Brandes et al., 2016)
-
蛋白质理化性质预测
- 任务:荧光强度预测
- 目标类型:连续值
- 预测范围:全局
- 训练序列数量:21,446
- 数据来源:(Sarkisyan et al., 2016; Rao et al., 2019)
-
蛋白质理化性质预测
- 任务:稳定性预测
- 目标类型:连续值
- 预测范围:全局
- 训练序列数量:53,679
- 数据来源:(Rocklin et al., 2017; Rao et al., 2019)
数据来源引用:
Moult J, Fidelis K, Kryshtafovych A, et al. (2018) Critical assessment of methods of protein structure prediction (CASP)—Round XII. Proteins Struct Funct Bioinforma, 86, 7–15.
Rao R. et al. (2019) Evaluating protein transfer learning with tape. Adv. Neural Inf. Process. Syst., 32, 9689–9701.
Andreeva A, Kulesha E, Gough J, Murzin AG (2020) The SCOP database in 2020: expanded classification of representative family and superfamily domains of known protein structures. Nucleic Acids Res, 48, D376D382.
Armenteros JJA, Tsirigos KD, Sønderby CK, et al. (2019) SignalP 5.0 improves signal peptide predictions using deep neural networks. Nat Biotechnol, 37, 420–423.
Hornbeck P V, Zhang B, Murray B, et al. (2015) PhosphoSitePlus, 2014: mutations, PTMs and recalibrations. Nucleic AcidsRes, 43, D512–D520.
Ofer D, Linial M (2014) NeuroPID: a predictor for identifying neuropeptide precursors from metazoan proteomes. Bioinformatics, 30, 931–940.
Ofer D, Linial M (2015) ProFET: Feature engineering captures high-level protein functions. Bioinformatics, 31, 3429–3436.
Brandes N, Ofer D, Linial M. (2016) ASAP: A machine learning framework for local protein properties. Database 2016.
Sarkisyan KS, Bolotin DA, Meer MV, et al. (2016) Local fitness landscape of the green fluorescent protein. Nature, 533, 397–401.
Rocklin GJ, Chidyausiku TM, Goreshnik I, et al. (2017) Global analysis of protein folding using massively parallel design,synthesis, and testing. Science (80-) 357, 168–175.
数据集许可:
本数据集基于MIT许可协议,可自由用于学术和商业用途。