美国国民健康与营养调查NHANES人群健康与环境暴露数据集1988-2018-nguyenvy
数据来源:互联网公开数据
标签:NHANES,健康调查,营养调查,人口健康,环境暴露,生物标志物,膳食,生理功能,问卷调查,死亡信息,美国
数据概述:
本数据集整合了1988年至2018年间美国国民健康与营养调查(NHANES)的数据,旨在为研究非机构化美国人群的健康状况和环境暴露提供全面支持。数据集经过精心整理和统一,合并了614个独立文件,并对NHANES III (1988-1994) 和 连续NHANES (1999-2018) 的不受限数据进行了标准化,总共涵盖了135,310名参与者和5,078个变量。
数据涵盖以下主要内容:
人口统计学数据(281个变量)
膳食摄入数据(324个变量)
生理功能数据(1,040个变量)
职业信息(61个变量)
问卷调查数据(1444个变量,包括身体活动、医疗状况、糖尿病、生殖健康、血压和胆固醇、幼儿时期等)
用药信息(29个变量)
从国家死亡索引(National Death Index)链接的死亡信息(15个变量)
调查权重数据(857个变量)
环境暴露生物标志物测量数据(598个变量)
化学物质注释,指示测量值低于或高于检测下限(505个变量)
数据集包含23个CSV文件和1个Excel文件。CSV文件分为20个模块,每个模块包含原始和清洗后的两个版本,模块包括:死亡信息、膳食、人口统计学、反应、药物、问卷、化学物质、职业、权重和注释。此外,还提供了变量描述字典"dictionary_nhanes.csv"、分类变量的标准化类别"dictionary_harmonized_categories.csv"、药物代码描述字典"dictionary_drug_codes.csv"以及清洗文档"nhanes_inconsistencies_documentation.xlsx"。
R语言数据包:为方便R语言用户,提供了清洗后的NHANES模块和数据字典的.zip压缩包,包含一个.RData文件和一个.R文件。"w - nhanes_1988_2018.RData"包含了所有数据集作为R数据对象。"m - nhanes_1988_2018.R"展示了如何使用自定义函数(即数据处理流程)来整理原始NHANES数据。
示例代码:为了帮助用户进行暴露组学分析,提供了四个R Markdown文件(.Rmd)作为入门代码:
"example_0 - merge_datasets_together.Rmd":展示如何合并整理后的NHANES数据集。
"example_1 - account_for_nhanes_design.Rmd":展示如何进行线性回归模型、调查加权回归模型、Cox比例风险模型和调查加权Cox比例风险模型。
"example_2 - calculate_summary_statistics.Rmd":展示如何计算单个变量和多个变量的汇总统计数据,以及是否考虑NHANES抽样设计。
"example_3 - run_multiple_regressions.Rmd":展示如何运行多个回归模型,以及是否调整抽样设计。
数据用途概述:
该数据集广泛适用于公共卫生、流行病学、环境健康、营养学等多领域的科研和分析。研究人员可以利用该数据研究疾病与环境暴露的关系、评估健康干预措施的效果、分析不同人群的健康差异、探索营养与健康的关系等。数据可用于构建预测模型、进行统计分析、支持政策制定,并为改善美国居民的健康状况提供科学依据。