logo资料库

泰坦尼克号0.81准确率实验报告.docx

第1页 / 共16页
第2页 / 共16页
第3页 / 共16页
第4页 / 共16页
第5页 / 共16页
第6页 / 共16页
第7页 / 共16页
第8页 / 共16页
资料共16页,剩余部分请下载后查看
泰坦尼克号
1 导入包
2 加载并合并数据
3 查看数据
4 处理数据
5 提取模型需要的数据
6 对数据进行标准化、降维等操作
7 可视化研究不同特征的影响
泰坦尼克号 软件工程 1704 张志浩 20175283 1 导入包 2 加载并合并数据
3 查看数据
Embarked => 登船港口 Cabin => 客舱
我们知道了总的数据一共有 1309 行,也知道了每个特征的数据类型,很多数据 都出现了缺失,总结一下: 1、 Age缺失 263个,不算多,处理数据 2、 Survived缺失418个,不用处理,因为test.csv中的数据本来就是没有 Survived的。 3、 Cabin缺失1014个,缺失太多,丢弃这个特征 4、 Fare缺失1个 5、 Embarked缺失2个 4 处理数据 在数据中出现缺失或者错误的 Value 是很正常的事,一些预测模型可以很好 的处理缺失数据,如神经网络(neural networks),有些则需要单独处理他们。 但是我们使用的随机森林(Random Forest)来做预测模型,随机森林(自身并不能 对付缺失数据,所以我们需要对缺失值单独进行处理。 4.1 删除 Cabin => 客舱、Ticket => 船票信息、PassengerId => 乘客ID 4.2 处理 Age => 年龄的缺失值 4.2.1 平均值来填充 Age(年龄)有 263 个缺失项,就简单地用平均值来填充,并看看填充前后的直 方图:
4.2.2 随机选取平均值加减标准差范围的数来填充
4.3 接着,我们需要从年龄中提取一个特征出来,即:孩子。尊老爱幼 4.4处理Embarked => 登船港口的缺失值
4.5 填补 Fare => 票价 缺失值 Fare(票价)只有 1 个缺失项,直接用平均值填充: 可以看出票价集中在 10 左右,幸存的人的票价平均在 48。
4.6Pclass => 乘客等级(1/2/3 等舱位) 可视化
分享到:
收藏