数据集概述
本数据集支持在研手稿,包含加拿大安大略省废水样本中SARS-CoV-2突变频率的下一代测序数据及元数据,覆盖样本和采样点信息、测序覆盖度、突变计数、可视化数据等,共10个文件,用于分析病毒突变的时空分布特征。
文件详解
sample_metadata.json
- 文件格式:JSON
- 字段映射介绍:关联样本名称与样本采集日期、采样点ID(siteID)
site_metadata.json
- 文件格式:JSON
- 字段映射介绍:关联采样点ID与完整站点名称、经纬度、公共卫生区域、 municipality、估算排水区人口规模
coverage_all.csv.gz
- 文件格式:gzip压缩CSV
- 字段映射介绍:包含每个样本(整数索引)在病毒基因组每个坐标的测序读长深度
coverage_meta.csv
- 文件格式:CSV
- 字段映射介绍:关联整数索引与样本元数据,包含idx(索引)、metadata_ID(样本元数据ID)、coldate(采集日期)
count_mutations.csv
- 文件格式:CSV
- 字段映射介绍:包含每个样本的突变类型计数,包括插入、缺失、非同义及同义核苷酸替换
count_reads.csv
- 文件格式:CSV
- 字段映射介绍:包含每个样本映射到参考基因组的总读长数
heatmap.csv
- 文件格式:CSV
- 字段映射介绍:包含生成突变频率时间热图所需数据,仅保留研究期间总体平均频率在5%至95%之间的突变
all-mutation-counts.csv
- 文件格式:CSV
- 字段映射介绍:包含每个样本中观测到的突变频率(读长深度≥100且相对频率≥1%),突变标识规则:~表示替换(如~12074T)、+/-表示插入/缺失(如-12074.1)
dot-product.csv
- 文件格式:CSV
- 字段映射介绍:包含所有样本(排除1个异常值,共1587个)之间的标准化点积矩阵
dot-prod.meta.csv
- 文件格式:CSV
- 字段映射介绍:包含点积矩阵所代表的1857个样本的元数据
适用场景
- 病毒突变时空分布分析: 利用heatmap.csv等数据研究安大略省不同区域、不同时间SARS-CoV-2突变频率的变化规律
- 公共卫生监测: 通过废水样本中的突变数据,实时追踪病毒变异趋势,辅助疫情防控决策
- 测序数据质量评估: 分析coverage_all.csv.gz中的读长深度,评估各样本测序数据的覆盖完整性
- 样本关联性研究: 利用dot-product.csv中的点积矩阵,探究不同样本间病毒突变谱的相似性与差异
- 突变特征统计分析: 通过count_mutations.csv和all-mutation-counts.csv,统计各类突变的发生频率与分布特征