数据集概述
本数据集为生物学领域的原始实验数据文件集,包含三十个文件,覆盖FASTA、PDB、TXT、CSV、TSV、XLSX、R等七种格式,涉及信号强度测量、序列比对、结构分析、数据处理脚本等内容,无明确目录结构,可用于生物信息学相关分析。
文件详解
- 数据文件类
- 信号强度测量文件:如Fig. S9Dand E_signal_intensity_measurement..xlsx、Fig. 3E and F_signal_intensity_measurement.xlsx等,格式为XLSX,记录实验信号强度数据
- 序列比对结果文件:如FigS16B_g15728_blast_file_4.txt、FigS17_cn400k_blast_result.txt等,格式为TXT,包含BLAST比对结果
- 进化分析文件:如Fig.S15B_dn_ds.csv,格式为CSV,包含position、aa、dnds、SE等进化分析字段
- 蛋白质结构文件:如Fig3A_human_PGM3.pdb.pdb、Fig3A_Cbr-SHLS-1.pdb等,格式为PDB,存储蛋白质三维结构数据
- 序列文件:如FigS6_shls-1_aa.fasta、Fig5CandD_FigS15_F_box_aa_corrected.fasta等,格式为FASTA,包含氨基酸序列信息
- 计数与相似性文件:如Fig5B_IPRGcount.tsv(TSV格式,含IPR编号、OG编号及计数数据)、Fig5C_fbox_similarity.xlsx(XLSX格式,记录F-box相似性数据)
- 代码文件类
- 数据处理脚本:如Fig5D_f_box_location.R、FigS15B_dnds.R、FigS16B_dotplot_drawing.R等,格式为R,共十个文件,用于数据处理与可视化
- 其他文件类
- 文本数据文件:如Fig5B_all.txt,格式为TXT,包含ID、BRE、CBR等多列数据,记录实验测量结果
适用场景
- 生物信息学分析:利用序列比对结果、进化分析数据开展基因或蛋白质功能研究
- 蛋白质结构分析:通过PDB文件进行蛋白质三维结构建模与分析
- 实验数据验证:使用信号强度测量文件、计数文件验证实验结果
- 数据分析脚本复用:基于R脚本复现或优化数据处理与可视化流程
- 生物学实验数据存档:作为原始实验数据进行长期存储与管理