RNA二级结构预测数据集-2021-davidbtcox
数据来源:互联网公开数据
标签:RNA,二级结构,预测,机器学习,生物信息学,数据集,算法比较
数据概述:
本数据集包含了用于微调RibonanzaNet模型进行RNA二级结构预测的测试序列数据。数据集中共有2万个测试序列,每个序列都由其对应的PDB代码命名,并标注了RNA序列、长度、二级结构(点括号表示法)及成对矩阵等信息。此外,数据集中还包含了多种算法预测的二级结构及对应的F1分数,这些算法包括RibonanzaNet(预训练与非预训练版本)、Vienna2、Contrafold2、EternaFold、IPknots、Knotty、Shapify-hfold和SPOT-RNA。
数据字段说明:
- train_or_test:指示序列来自训练集还是测试集(本数据集中所有序列为测试序列)
- name:序列的名称,由4个字符的PDB代码或CASP15目标代码指定
- dataset:数据集来源(pdb或casp15)
- sequence:RNA序列字符串
- length:RNA序列长度
- structure:RNA序列的二级结构(点括号表示法)
- bp_mat:二级结构的成对矩阵,矩阵元素M(i,j)为1表示第i个核苷酸与第j个核苷酸配对,其余元素为0
- num_pseudoknots:结构中存在的假结数量
- pairs:二级结构的成对列表(0索引)
- pairs_native_idx:二级结构的成对列表(1索引)
预测与评估字段:
- PRED后缀的字段:由相关算法生成的二级结构预测结果(点括号表示法)
- PRED_f1后缀的字段:预测结果相对于参考序列的F1分数
算法说明:
- rn_fine_tuned:在化学映射数据上预训练后,在二级结构上微调的RibonanzaNet模型
- rn_no_pretraining:未在化学映射数据上预训练,在二级结构上微调的RibonanzaNet模型
- vienna2:Vienna2算法(https://www.tbi.univie.ac.at/RNA/download)
- vienna2.TK:Vienna2结合ThreshKnots
- vienna2.HN:Vienna2结合HotKnots
- contrafold2:Contrafold2算法(http://contra.stanford.edu/contrafold/)
- contrafold2.TK:Contrafold2结合ThreshKnots
- contrafold2.HN:Contrafold2结合HotKnots
- eternafold:EternaFold算法(https://eternagame.org/software)
- eternafold.TK:EternaFold结合ThreshKnots
- eternafold.HN:EternaFold结合HotKnots
- ipknots:IPknots算法(http://ws.sato-lab.org/rtips/ipknot/)
- knotty:Knotty算法(https://github.com/HosnaJabbari/Knotty)
- shapify-hfold:Shapify-hfold算法(https://github.com/ltrinity/Shapify)
- SPOT-RNA:SPOT-RNA算法(https://github.com/jaswindersingh2/SPOT-RNA)
数据用途概述:
该数据集适用于RNA二级结构预测算法的比较与评估、生物信息学教育、科研项目等场合。研究人员可以根据数据集中的多种预测结果和评估指标,对不同算法的性能进行分析和比较;此外,数据集也可用于训练和测试新的RNA二级结构预测模型。