数据集概述
该数据集为《Genomic benchmarks: a collection of datasets for genomic sequence classification》手稿中发表的数据集集合,包含27个文件,涉及人类、果蝇等物种的基因组序列分类相关数据,支持基因组序列分类研究。
文件详解
该数据集包含两种格式的文件,具体说明如下:
- 压缩文件(.zip格式,共9个):
- 示例文件:human_ocr_ensembl_v0.zip、human_enhancers_ensembl_v0.zip、human_ensembl_regulatory_v0.zip、demo_human_or_worm_v0.zip等
- 内容:原始格式的基因组相关数据集压缩包
- 压缩CSV文件(.csv.gz格式,共18个):
- 示例文件:demo_human_or_worm_test.csv.gz、human_enhancers_cohn_train.csv.gz、drosophila_enhancers_stark_train.csv.gz、human_ensembl_regulatory_train.csv.gz、human_enhancers_ensembl_test.csv.gz、human_ocr_ensembl_test.csv.gz、drosophila_enhancers_stark_test.csv.gz等
- 内容:转换为CSV格式的基因组相关数据集压缩包,包含训练(train)、测试(test)相关实验数据
适用场景
- 基因组学研究:用于基因组序列分类算法的基准测试与验证
- 生物信息学分析:支持人类、果蝇等物种基因组增强子、调控区域等序列特征的分类研究
- 机器学习模型训练:为基因组序列分类相关的机器学习模型提供训练与测试数据
- 基因组数据标准化研究:助力基因组基准数据集的构建与应用方法探索