墨尔本餐厅外卖数据集
数据来源:互联网公开数据
标签:外卖数据,餐厅运营,墨尔本,地理信息,订单分析,顾客行为,数据清洗,异常检测
数据概述
本数据集包含了澳大利亚墨尔本某餐厅的外卖订单记录。该餐厅在CBD周边共有三个分店,虽然菜单相同,但每个分店由不同的管理层运营,因此运作模式存在差异。数据集包含了订单的详细信息,如订单编号、下单时间、订单类型、分店代码、订单商品明细、总价、顾客位置、顾客是否拥有会员卡、顾客与分店之间的最短距离以及外卖费用等。此外,数据集中还包含了不同类型的异常(如语法错误、语义错误和覆盖范围不足)和缺失值问题,用于测试数据清洗和异常处理能力。
数据用途概述
该数据集适用于多个应用场景:
1. 外卖业务分析:研究人员可以利用数据集分析不同分店的运营模式、订单分布规律以及顾客需求变化。
2. 地理信息分析:通过顾客位置和分店之间的距离数据,可以研究配送范围、配送效率以及顾客分布模式。
3. 顾客行为研究:分析顾客是否拥有会员卡以及每个订单的商品明细,可以帮助企业了解顾客偏好和忠诚度。
4. 异常检测与数据清洗:数据集中包含故意设置的异常和缺失值,适合用于教学或实践,帮助学习者掌握数据清洗和异常处理技能。
5. 定价策略研究:分析外卖费用的计算方法,理解不同分店的定价策略及其与订单时间、距离等因素的关系。
字段定义
以下是数据集中各字段的详细说明:
- order_id:每个订单的唯一标识符。
- date:订单下单日期,格式为YYYY-MM-DD。
- time:订单下单时间,格式为hh:mm:ss。
- order_type:订单类型,分为Breakfast(早餐)、Lunch(午餐)和Dinner(晚餐)。
- branch_code:订单所属分店的代码,具体分店信息在branches.csv文件中给出。
- order_items:订单商品明细,以元组列表形式存储,每个元组包含商品名称和数量。
- order_price:订单总价,以浮点数表示。
- customer_lat:顾客的纬度坐标,数据来自nodes.csv文件。
- customer_lon:顾客的经度坐标,数据来自nodes.csv文件。
- customerHasloyalty?:表示顾客是否拥有会员卡的逻辑变量,1表示有会员卡,0表示无会员卡。
- distance_to_customer_KM:分店与顾客之间的最短距离(以千米为单位),通过Dijkstra算法计算得出。
- delivery_fee:订单的外卖费用,以浮点数表示。
注意事项
1. 数据集中存在不同类型的异常,包括语法错误、语义错误和覆盖范围不足。例如,dirty_data.csv文件中的每一行最多包含一种异常,这些异常都是可以修复的。
2. outlier_data.csv文件中不存在数据异常,但包含一些明显的异常值(如异常的外卖费用)。
3. missing_data.csv文件中仅存在缺失值问题,需要进行填充或处理。
4. 三个分店的定价策略不同,外卖费用的计算方式也有所不同,具体取决于订单时间、是否是周末以及顾客与分店之间的距离。
5. 顾客若有会员卡,可享受外卖费用50%的折扣。
该数据集为研究人员、数据分析师和学习者提供了丰富的实践机会,有助于深入理解外卖业务的运营模式、顾客行为以及数据清洗和异常处理的实用技巧。