COVID-19完整基因组数据集

COVID-19完整基因组数据集 数据来源:互联网公开数据 标签:COVID-19,基因组,NCBI,蛋白质序列,病毒学,生物信息学

数据概述: 本数据集包含2020年4月17日从NCBI下载的367个完整的COVID-19基因组序列。数据经过初步处理,去除了包含无效字符(如N和K)的序列,以确保数据质量。数据集中的每个基因组序列均可通过NCBI的GenBank数据库获取详细信息。此外,数据集还包含了从NCBI和SWISS-MODEL获取的蛋白质序列和共识序列。

数据用途概述: 该数据集适用于病毒学研究、生物信息学分析和疫情监控等多种场景。研究人员可以利用该数据集进行基因组变异分析,探索病毒的进化路径;医疗机构可以借助数据进行病毒检测和诊断;政策制定者可以基于数据评估疫情防控措施的效果。此外,数据集也适合用于教育培训,帮助学习者深入了解病毒学和生物信息学的基本原理。

更新日志: 2020年4月22日 - 删除了仅包含1048个碱基的DNA序列,并移除了99个重复的DNA序列(保留了具有较新NCBI ID的序列)。添加了YP_009742608.1蛋白的对齐序列。添加了YP_009725298.1蛋白的对齐序列。使用NCBI标准代码进行DNA到氨基酸的翻译。 2020年4月23日 - 添加了YP_009725299.1蛋白的对齐序列。 2020年4月24日 - 添加了以下蛋白质的对齐序列:YP_009725300.1, YP_009725301.1, YP_009725302.1, YP_009725303.1, YP_009725304.1, YP_009725305.1。

packageimg

数据与资源

附加信息

字段
版本 1.0
数据集大小 4.27 MiB
最后更新 2025年4月14日
创建于 2025年4月14日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。