数据集概述
本数据集记录了中国北京、上海、广州三个城市的三种典型生鲜业态(批发市场、线上零售、社区生鲜店)的日常交易信息。时间范围为2024年9月1日至2024年11月30日,共91天,覆盖13种生鲜商品的销售、库存、促销、天气等多维度数据,总计3549条记录。数据体现了不同业态的交易特征、季节变化及节假日影响。
文件详解
- 完整数据集
- 文件名称: fresh_market_data.csv
- 文件格式: CSV(UTF-8编码)
- 字段映射介绍: 包含交易标识(transaction_id、transaction_time、date)、时间属性(year、month、day、day_of_week、is_weekend、is_holiday、holiday_name)、门店信息(city、store_id、store_name、store_type、platform)、商品信息(category、sku_id、sku_name、unit、specs、supplier)、交易数据(sales_qty、unit_price、sales_amt、is_promo、promo_type)、库存数据(stock_qty、stock_status)、环境数据(weather、temperature)、评价数据(avg_rating、review_count)
- 分门店数据集
- 文件名称: store1_data.csv(BJ_XFD_01)、store2_data.csv(SH_HEMA_01)、store3_data.csv(GZ_QDM_01)
- 文件格式: CSV(UTF-8编码)
- 字段映射介绍: 与完整数据集字段一致,仅包含对应单一门店的记录
- 数据质量报告
- 文件名称: quality_report.txt
- 文件格式: TXT
- 字段映射介绍: 记录数据完整性、缺失值、异常值等质量评估信息
数据来源
本数据集采用"真实参数 + 规则驱动"的仿真方法构建。商品价格数据参考 Numbeo 全球生活成本数据库中的中国城市食品价格统计;业态特征参考新发地批发市场、盒马鲜生、钱大妈等企业的公开运营信息;时序波动规律参考零售行业季节性消费研究及中国节假日消费行为分析。数据生成过程中,通过参数化配置实现不同业态的差异化建模,确保数据分布特征符合真实商业场景。
适用场景
- 销售预测模型训练: 利用时间、天气、促销、节假日等特征构建生鲜商品销量预测模型。
- 库存优化分析: 研究不同业态的库存状态与销售关系,支持日清模式与安全库存策略优化。
- 节假日消费行为研究: 分析中秋、国庆、双十一等节假日对生鲜品类销量与价格的影响。
- 天气对销售影响分析: 评估温度、天气状况与蔬菜、水果、肉类等品类销量的相关性。
- 不同业态对比分析: 比较批发市场、线上零售、社区门店在交易时间、单价、销量规模等方面的差异。
- 促销效果评估: 量化促销活动对销售数量、金额及品类结构的影响。
- 数据清洗与预处理练习: 适合用于教学场景中的缺失值处理、异常值检测及特征工程实践。