泰坦尼克号宇宙飞船乘客运输预测数据集清洗与特征工程-youusha
数据来源:互联网公开数据
标签:泰坦尼克号,宇宙飞船,乘客,运输,预测,机器学习,特征工程,数据清洗
数据概述:
本数据集是经过清洗和特征工程处理的泰坦尼克号宇宙飞船乘客数据,旨在用于预测乘客是否被运输到其他维度。原始数据包含乘客的基本信息和消费记录,经过处理后,缺失值已得到合理填充,并增加了新的特征以提升模型性能。数据集包含以下字段:
PassengerId:乘客的唯一标识,格式为gggg_pp,其中gggg代表乘客所属的组,pp代表组内的乘客编号。
HomePlanet:乘客的出发星球,通常是其永久居住地。
CryoSleep:乘客是否选择在航行期间进入休眠状态。
Cabin:乘客的舱位号,格式为deck/num/side,其中side表示船的左舷(P)或右舷(S)。
Destination:乘客的目的地星球。
Age:乘客的年龄。
VIP:乘客是否购买了VIP服务。
RoomService, FoodCourt, ShoppingMall, Spa, VRDeck:乘客在各项豪华设施上的消费金额。
Transported:乘客是否被运输到其他维度,这是需要预测的目标变量。
新增特征:
Grouped:乘客是否是独自旅行。
Deck:乘客所在的甲板。
Side:乘客所在的舷侧(左舷或右舷)。
Has_expenses:乘客是否有消费记录。
Is_embryo:乘客是否为胚胎(年龄为0)。
数据用途概述:
该数据集主要用于机器学习模型的训练和评估,旨在预测乘客是否被运输到其他维度。适用于以下场景:
二元分类问题:预测乘客是否被运输(Transported字段)。
特征重要性分析:探索不同特征对预测结果的影响。
模型性能评估:比较不同机器学习算法的性能。
数据探索性分析:了解乘客特征与运输结果之间的关系。
数据集也适用于数据科学教学和实践,帮助学习者理解数据清洗、特征工程和模型构建的流程。