变体调用数据集大数据管理实验结果数据集

数据集概述

本数据集包含“Managing variant calling datasets the big data way”研究的实验结果,围绕存储格式、输入规模、集群节点数、HDFS复制因子四个因素对大数据集群性能的影响展开,记录了五次重复实验的详细数据及分析脚本、图表文件。

文件详解

  • 文件名称: analysis_script.R:R语言脚本文件,用于生成实验对应的图表
  • 文件名称: SupplementaryFigure104.pdf:PDF格式文件,展示输入规模为104个个体时的补充实验结果图表
  • 文件名称: data.csv:CSV格式数据文件,包含实验原始数据,字段包括存储格式(m)、输入规模(i)、HDFS复制因子(r)、集群节点数(w)及五次重复实验的运行时间(e1-e5)
  • 文件名称: SupplementaryFigure1144.pdf:PDF格式文件,展示输入规模为1144个个体时的补充实验结果图表
  • 文件名称: Figure2.pdf:PDF格式文件,展示实验核心结果图表

适用场景

  • 大数据存储与计算性能优化研究:分析存储格式、集群配置等因素对变体调用数据集处理效率的影响
  • 生物信息学大数据技术应用:探索VCF与Parquet格式在基因组数据管理中的性能差异
  • 分布式系统参数调优:研究HDFS复制因子、集群节点数对数据处理性能的作用机制
  • 实验结果复现与验证:基于原始数据和脚本复现研究中的性能分析图表与结论
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 0.56 MiB
最后更新 2025年12月15日
创建于 2025年12月15日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。