本文對Kaggle中的Titanic事故中乘客遇難情況進行了相應的分析和可視化采用邏輯回歸對他們的遇難情況進行了預測。最后得到的預測結果不算很好但是本文大致是一個較為完整的數據分析和預測流程。
建立模型時我們需要的特征往往都是數值型因此我們需要將對相應屬性轉換為one-hot編碼表示首先我們打印出數據集的前5行看看哪些特征需要進行轉換
將模型中每個特征的系數打印出來分析可以看到頭等艙可以很好的提升獲救率而三等艙與獲救率則有著明顯的負相關女性與獲救率之間則有著明顯的正相關等。
之前我們直接在測試集上進行了預測為了優化模型我們可以首先在一部分訓練集上進行預測與真實的情況進行對比采用sklearn里的交叉預測模塊進行分析
在這之后為了提高預測準確率還需要進行更進一步的特征工程的工作并且采用多模型融合也可能可以提高預測的準確率。本文在補全未知數據時采用了較為簡單的方法尤其時對年齡的補全采用了所有數據的平均值作為缺失年齡的補全值這樣的做法可能并不科學另外對于PassengerId、Name和Ticket的信息沒有進行有效的利用在這些方面進一步深挖也許可以提高預測的準確率。