数据集概述
本数据集为2023年Arabidosis研究相关数据与分析代码,包含5个文件夹,涉及模拟重采样、表型与表观遗传数据、表观基因组选择R脚本、表观基因组验证R脚本及表型选择R脚本,支持Arabidosis遗传学研究中的数据处理与统计分析。
文件详解
- 主文件
- 文件名称:2023 Pujol Arabidopsis data.zip
- 文件格式:ZIP
- 内容结构:包含5个子文件夹,分别为"in Silico 1000 resampling"、"phenotypic and epiril data"、"scripts R epigenomic selection"、"scripts R epigenomic validation"、"scripts R phenotypic selection"
- "in Silico 1000 resampling"文件夹
- 子文件夹:Population 1(含24个文件)、Population 2(含24个文件)
- 文件内容:随机采样构建对照组的植物ID列表(listrand),及基于性状值构建高(Top)、低(Bot)选择系的植物ID列表(含强(20)、弱(60)选择强度)
- "phenotypic and epiril data"文件夹
- 文件名称:data_pop1.csv、data_pop2.csv、readme.txt
- 文件格式:CSV、TXT
- 内容:Population 1和Population 2的表型与表观遗传数据,及数据说明文档
- "scripts R epigenomic selection"文件夹
- 文件名称:PCA_arabidopsis.R、Arabette_analysis_loop_Epigenotypes_data.R
- 文件格式:R
- 内容:epiRIL数据PCA分析代码、表观基因型数据插入分析代码
- "scripts R epigenomic validation"文件夹
- 文件名称:含9个R脚本(如Script 1 Extract 126 markers...、Script 2 Boxplots...等)
- 文件格式:R
- 内容:甲基化标记提取、信号分布箱线图、数据相关性分析、层次聚类、差异甲基化位点/区域鉴定等验证代码
- "scripts R phenotypic selection"文件夹
- 文件名称:含4个R脚本(如Arabette_analysis.R、Arabette_analysis_loop_Phenotypes_data.R等)
- 文件格式:R
- 内容:选择处理比较参数估计代码(均值、置信区间计算),分Population 1和Population 2分析
适用场景
- Arabidosis遗传学研究:用于表型与表观遗传数据的统计分析与验证
- 选择系构建模拟:通过1000次模拟重采样数据,研究不同选择强度对对照组与选择系构建的影响
- 表观基因组数据分析:利用R脚本进行PCA、聚类、差异甲基化位点/区域鉴定等分析
- 统计方法应用验证:测试分子表观遗传数据与文献数据的一致性,验证分析方法可靠性
- 表型选择参数估计:支持不同种群表型选择处理的均值与置信区间计算,辅助选择效果评估