R_data_independent_人工数据生成_独立变量分布数据

数据集概述

本数据集为基于R语言生成的人工数据,包含10000行数据和1000个独立变量,通过线性模型生成符合不同分布的因变量Y,包括正态分布、泊松分布和混合正态分布,变量系数根据位置设置不同权重,用于统计建模和数据分析测试。

文件详解

  • 文件名称:data-independent.zip
  • 文件格式:ZIP
  • 字段映射介绍:包含10000行×1000个独立变量的数据集,通过线性模型生成正态分布、泊松分布、混合正态分布的因变量Y,变量系数设置为前10个变量系数为10到1递减,第11-100个变量系数为0.1,其余变量与Y无关。
  • 文件名称:data-multicol.zip
  • 文件格式:ZIP
  • 字段映射介绍:未提供具体内容预览,推测为包含多重共线性结构的人工数据集,用于测试统计模型对共线性数据的处理能力。

适用场景

  • 统计模型测试:用于验证线性回归、广义线性模型(如泊松回归)对不同分布数据的拟合效果。
  • 变量选择方法评估:测试变量选择算法对不同系数权重变量的识别能力。
  • 数据分布分析:比较正态分布、泊松分布、混合正态分布数据的统计特性差异。
  • 机器学习算法基准测试:作为基准数据集,评估算法在人工生成数据上的性能表现。
packageimg

数据与资源

附加信息

字段
作者 Maxj
版本 1
数据集大小 159.37 MiB
最后更新 2026年1月27日
创建于 2026年1月27日
声明 当前数据集部分源数据来源于公开互联网,如果有侵权,请24小时联系删除(400-600-6816)。