基因组基准数据集版本1

数据集概述

该数据集为《Genomic benchmarks: a collection of datasets for genomic sequence classification》手稿中发表的数据集集合,包含27个文件,涉及人类、果蝇等物种的基因组序列分类相关数据,支持基因组序列分类研究。

文件详解

该数据集包含两种格式的文件,具体说明如下: - 压缩文件(.zip格式,共9个): - 示例文件:human_ocr_ensembl_v0.zip、human_enhancers_ensembl_v0.zip、human_ensembl_regulatory_v0.zip、demo_human_or_worm_v0.zip等 - 内容:原始格式的基因组相关数据集压缩包 - 压缩CSV文件(.csv.gz格式,共18个): - 示例文件:demo_human_or_worm_test.csv.gz、human_enhancers_cohn_train.csv.gz、drosophila_enhancers_stark_train.csv.gz、human_ensembl_regulatory_train.csv.gz、human_enhancers_ensembl_test.csv.gz、human_ocr_ensembl_test.csv.gz、drosophila_enhancers_stark_test.csv.gz等 - 内容:转换为CSV格式的基因组相关数据集压缩包,包含训练(train)、测试(test)相关实验数据

适用场景

  • 基因组学研究:用于基因组序列分类算法的基准测试与验证
  • 生物信息学分析:支持人类、果蝇等物种基因组增强子、调控区域等序列特征的分类研究
  • 机器学习模型训练:为基因组序列分类相关的机器学习模型提供训练与测试数据
  • 基因组数据标准化研究:助力基因组基准数据集的构建与应用方法探索
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 381.36 MiB
最后更新 2025年12月4日
创建于 2025年12月4日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。