RNA二级结构预测数据集-2021-davidbtcox

RNA二级结构预测数据集-2021-davidbtcox 数据来源:互联网公开数据 标签:RNA,二级结构,预测,机器学习,生物信息学,数据集,算法比较

数据概述: 本数据集包含了用于微调RibonanzaNet模型进行RNA二级结构预测的测试序列数据。数据集中共有2万个测试序列,每个序列都由其对应的PDB代码命名,并标注了RNA序列、长度、二级结构(点括号表示法)及成对矩阵等信息。此外,数据集中还包含了多种算法预测的二级结构及对应的F1分数,这些算法包括RibonanzaNet(预训练与非预训练版本)、Vienna2、Contrafold2、EternaFold、IPknots、Knotty、Shapify-hfold和SPOT-RNA。

数据字段说明: - train_or_test:指示序列来自训练集还是测试集(本数据集中所有序列为测试序列) - name:序列的名称,由4个字符的PDB代码或CASP15目标代码指定 - dataset:数据集来源(pdb或casp15) - sequence:RNA序列字符串 - length:RNA序列长度 - structure:RNA序列的二级结构(点括号表示法) - bp_mat:二级结构的成对矩阵,矩阵元素M(i,j)为1表示第i个核苷酸与第j个核苷酸配对,其余元素为0 - num_pseudoknots:结构中存在的假结数量 - pairs:二级结构的成对列表(0索引) - pairs_native_idx:二级结构的成对列表(1索引)

预测与评估字段: - PRED后缀的字段:由相关算法生成的二级结构预测结果(点括号表示法) - PRED_f1后缀的字段:预测结果相对于参考序列的F1分数

算法说明: - rn_fine_tuned:在化学映射数据上预训练后,在二级结构上微调的RibonanzaNet模型 - rn_no_pretraining:未在化学映射数据上预训练,在二级结构上微调的RibonanzaNet模型 - vienna2:Vienna2算法(https://www.tbi.univie.ac.at/RNA/download) - vienna2.TK:Vienna2结合ThreshKnots - vienna2.HN:Vienna2结合HotKnots - contrafold2:Contrafold2算法(http://contra.stanford.edu/contrafold/) - contrafold2.TK:Contrafold2结合ThreshKnots - contrafold2.HN:Contrafold2结合HotKnots - eternafold:EternaFold算法(https://eternagame.org/software) - eternafold.TK:EternaFold结合ThreshKnots - eternafold.HN:EternaFold结合HotKnots - ipknots:IPknots算法(http://ws.sato-lab.org/rtips/ipknot/) - knotty:Knotty算法(https://github.com/HosnaJabbari/Knotty) - shapify-hfold:Shapify-hfold算法(https://github.com/ltrinity/Shapify) - SPOT-RNA:SPOT-RNA算法(https://github.com/jaswindersingh2/SPOT-RNA

数据用途概述: 该数据集适用于RNA二级结构预测算法的比较与评估、生物信息学教育、科研项目等场合。研究人员可以根据数据集中的多种预测结果和评估指标,对不同算法的性能进行分析和比较;此外,数据集也可用于训练和测试新的RNA二级结构预测模型。

packageimg

数据与资源

附加信息

字段
版本 1.0
最后更新 四月 21, 2025, 16:13 (UTC)
创建于 四月 21, 2025, 16:13 (UTC)
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。