数据集概述
本数据集包含用于数据加权的低成本传感器数据,分为未校准和校准两类,用于Frischmon等人2025年发表的空气质量传感器峰值浓度量化研究。数据已处理为一小时中位数时间平均,去除了传感器预热期数据,涵盖甲烷、总挥发性有机物、一氧化碳三种气体的传感器信号及多模型校准预测结果。
文件详解
该数据集以CSV格式文件为主,按气体类型和数据类型分类存储,具体如下:
- 未校准传感器数据(位于Uncalibrated LCS data/目录下):
- 文件名称示例: uncalibrated_CO.csv、uncalibrated_CH4.csv、uncalibrated_TVOC.csv
- 文件格式: CSV (.csv)
- 字段示例(以uncalibrated_CO.csv为例): datetime(时间)、CO_Main(主传感器信号)、CO_Aux(辅助传感器信号)、Temperature(温度)、Humidity(湿度)
- 说明: 无单位,为原始传感器信号
- 校准传感器数据(位于Calibrated LCS data/目录下,按气体类型CH4、CO、TVOC再分模型子目录):
- 直接模型预测文件(位于对应气体子目录下):
- 文件名称示例: MLR_y_predicted.csv(多元线性回归模型预测)、randomforest_y_predicted.csv(随机森林模型预测)
- 文件格式: CSV (.csv)
- 说明: 包含模型预测的气体浓度值
- 分段加权模型文件(位于对应气体的Piecewise/子目录下):
- 文件名称示例: randomforest_pw95_y_predicted.csv(95百分位分段随机森林预测)、MLR_pw90_y_predicted.csv(90百分位分段多元线性回归预测)
- 文件格式: CSV (.csv)
- 说明: 基于百分位截断点的分段加权模型预测结果
- sigmoidal加权模型文件(位于对应气体的Sigmoid/子目录下):
- 文件名称示例: MLR_sigmoid_offset2_y_predicted.csv(z分数偏移为2的sigmoidal加权多元线性回归预测)、randomforest_sigmoid_offset3_y_predicted.csv(z分数偏移为3的sigmoidal加权随机森林预测)
- 文件格式: CSV (.csv)
- 说明: 基于z分数偏移的sigmoidal加权模型预测结果
- 单位说明: CH4(ppm)、TVOC(ppb)、CO(ppm)
适用场景
- 空气质量监测研究: 分析低成本传感器数据校准方法对气体浓度量化的影响
- 机器学习模型评估: 对比多元线性回归、随机森林等模型在传感器数据校准中的性能
- 数据加权方法验证: 研究分段加权、sigmoidal加权等数据加权策略对峰值浓度预测的优化效果
- 环境工程应用: 为低成本空气质量监测设备的校准与数据处理提供实证数据支持