泰坦尼克号
软件工程 1704 张志浩 20175283
1 导入包
2 加载并合并数据
3 查看数据
Embarked => 登船港口
Cabin => 客舱
我们知道了总的数据一共有 1309 行,也知道了每个特征的数据类型,很多数据
都出现了缺失,总结一下:
1、 Age缺失 263个,不算多,处理数据
2、 Survived缺失418个,不用处理,因为test.csv中的数据本来就是没有
Survived的。
3、 Cabin缺失1014个,缺失太多,丢弃这个特征
4、 Fare缺失1个
5、 Embarked缺失2个
4 处理数据
在数据中出现缺失或者错误的 Value 是很正常的事,一些预测模型可以很好
的处理缺失数据,如神经网络(neural networks),有些则需要单独处理他们。
但是我们使用的随机森林(Random Forest)来做预测模型,随机森林(自身并不能
对付缺失数据,所以我们需要对缺失值单独进行处理。
4.1 删除 Cabin => 客舱、Ticket => 船票信息、PassengerId => 乘客ID
4.2 处理 Age => 年龄的缺失值
4.2.1 平均值来填充
Age(年龄)有 263 个缺失项,就简单地用平均值来填充,并看看填充前后的直
方图:
4.2.2 随机选取平均值加减标准差范围的数来填充
4.3 接着,我们需要从年龄中提取一个特征出来,即:孩子。尊老爱幼
4.4处理Embarked => 登船港口的缺失值
4.5 填补 Fare => 票价 缺失值
Fare(票价)只有 1 个缺失项,直接用平均值填充:
可以看出票价集中在 10 左右,幸存的人的票价平均在 48。
4.6Pclass => 乘客等级(1/2/3 等舱位)
可视化