新冠病毒感染序列检测数据集-2021
数据来源:互联网公开数据
标签:新冠病毒,序列检测,NCBI,感染识别,生物信息学,医学研究,数据集
数据概述:
本数据集包含45968条核苷酸序列,用于检测序列是否感染新冠病毒(SARS-CoV-2),其中22984条序列被标记为感染,22984条序列被标记为未感染。数据来源于NCBI(美国国家生物技术信息中心)的SARS-CoV-2数据集。
数据集包含两个文件:
1. to_identify_sars-cov-2_or_not.csv:包含45968条序列及其对应的感染标签。
2. to_identify_sars-cov-2_or_not.fasta:包含45968条核苷酸序列。
3. reference_sequence.fasta:包含1条参考序列,用于与其他序列进行比对。
数据集中的每个条目有两个特征:
- sequences:核苷酸序列
- class:感染标签,0表示感染序列,1表示未感染序列
数据来源:
Severe acute respiratory syndrome coronavirus 2 data hub: https://www.ncbi.nlm.nih.gov/labs/virus/vssi//virus?SeqType_s=Nucleotide&VirusLineage_ss=SARS-CoV-2,%20taxid:2697049
数据用途概述:
该数据集适用于新冠病毒感染检测、生物信息学研究、医学数据分析以及教学演示等场景。研究人员可以利用此数据集进行病毒序列比对、感染迹象识别和模式分析;教育工作者可以利用此数据集进行生物信息学教学和科研入门实践;医疗和公共卫生机构可以利用此数据集进行病毒感染监控和预防策略制定。