数据集概述
本数据集为基于R语言生成的人工数据,包含10000行数据和1000个独立变量,通过线性模型生成符合不同分布的因变量Y,包括正态分布、泊松分布和混合正态分布,变量系数根据位置设置不同权重,用于统计建模和数据分析测试。
文件详解
- 文件名称:data-independent.zip
- 文件格式:ZIP
- 字段映射介绍:包含10000行×1000个独立变量的数据集,通过线性模型生成正态分布、泊松分布、混合正态分布的因变量Y,变量系数设置为前10个变量系数为10到1递减,第11-100个变量系数为0.1,其余变量与Y无关。
- 文件名称:data-multicol.zip
- 文件格式:ZIP
- 字段映射介绍:未提供具体内容预览,推测为包含多重共线性结构的人工数据集,用于测试统计模型对共线性数据的处理能力。
适用场景
- 统计模型测试:用于验证线性回归、广义线性模型(如泊松回归)对不同分布数据的拟合效果。
- 变量选择方法评估:测试变量选择算法对不同系数权重变量的识别能力。
- 数据分布分析:比较正态分布、泊松分布、混合正态分布数据的统计特性差异。
- 机器学习算法基准测试:作为基准数据集,评估算法在人工生成数据上的性能表现。