泰坦尼克号乘客生存预测数据集-1912年-rksensational
数据来源:互联网公开数据
标签:泰坦尼克号,乘客,生存预测,数据集,机器学习,分类问题,历史事件
数据概述:
本数据集包含1912年泰坦尼克号沉船事件中乘客的信息,用于预测乘客的生存情况。数据被分为两个主要部分:训练集(train.csv)和测试集(test.csv)。训练集用于构建和训练机器学习模型,测试集用于评估模型的性能。
数据内容:
数据集不仅包含简单的行和列信息,还涵盖了多种与乘客相关的特征。这些特征有助于理解乘客的背景和他们在事故中的生存情况。数据集中的每一行代表一名乘客,而每一列代表一个特定的属性。数据集包含以下主要字段:
- pclass:社会经济状态(SES)的代理变量,分为三个等级:1(上层),2(中层),3(下层)。
- age:乘客年龄,如果是婴儿则为小数(例如,0.5表示6个月大),如果年龄是估计值,则表示为xx.5的形式。
- sibsp:乘客的兄弟姐妹和配偶数量。具体定义为:兄弟姐妹包括兄弟、姐妹、姐弟、妹夫;配偶包括丈夫、妻子(忽略情妇和未婚夫)。
- parch:乘客的父母和子女数量。具体定义为:父母包括母亲、父亲;子女包括女儿、儿子、继女、继子。有些儿童只与保姆同行,因此parch=0。
数据用途概述:
该数据集适用于多种分析场景,包括机器学习模型的构建和评估、生存率预测、乘客特征分析等。研究者可以利用此数据集探索不同社会经济背景和家庭关系对乘客生存率的影响。此外,数据集也适合用于教学和课程演示,帮助学生理解数据科学和机器学习的基本概念和应用。
致谢:
本数据集的构建和发布离不开众多研究者和数据科学家的贡献。特别感谢Kaggle平台提供此数据集,并允许公开使用。数据集的原始来源为Kaggle竞赛数据集。
变量说明:
- pclass:社会经济状态(SES)的代理变量,分为1(上层)、2(中层)、3(下层)。
- age:乘客年龄,如果是婴儿则为小数(例如,0.5表示6个月大),如果年龄是估计值,则表示为xx.5的形式。
- sibsp:乘客的兄弟姐妹和配偶数量。定义为:兄弟姐妹包括兄弟、姐妹、姐弟、妹夫;配偶包括丈夫、妻子(忽略情妇和未婚夫)。
- parch:乘客的父母和子女数量。定义为:父母包括母亲、父亲;子女包括女儿、儿子、继女、继子。有些儿童只与保姆同行,因此parch=0。