跳至主要內容
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?

4563博客

全新的繁體中文 WordPress 網站
  • 首頁
  • 使用最经典的泰坦尼克数据集如何快速清洗数据?
未分類
16 12 月 2020

使用最经典的泰坦尼克数据集如何快速清洗数据?

使用最经典的泰坦尼克数据集如何快速清洗数据?

資深大佬 : fanqieipnet 6

使用最经典的泰坦尼克数据集如何快速清洗数据?今天番茄加速就来给大家演示一下。

  首先导入包:

   import numpy as np import pandas as pd import seaborn as snsimport matplotlib.pyplot as plt

  导入数据

   df = pd.read_csv(‘./kaggle-data/titanic/train.csv’)

  找到所有列的 None 值

   df.isnull().sum()

   PassengerId 0Survived 0Pclass 0Name 0Sex 0Age 177SibSp 0Parch 0Ticket 0Fare 0Cabin 687Embarked 2dtype: int64

   Age 列较多,使用平均值填充

   df[‘Age’] = df[‘Age’].transform(lambda val: val.fillna(val.mean()))

   sex 列映射 male 为 0,female 为 1

   df[‘Sex’] = df[‘Sex’].map({‘male’: 0, ‘female’: 1})df = df.fillna(0)

  接下来就是最关键的,使用 corr 方法,找出各个变量间的相关系数,并使用 heatmap 绘制相关性:

   plt.figure(figsize=(8,6), dpi=150)sns.heatmap(data=df.corr(), cmap=’coolwarm’, annot=True)

  找出与 survived 列最相关的几个特征:

   np.abs(df.corr()[‘Survived’]).sort_values().tail(6)

  去掉相关不大的列,得到如下影响 survived 最大的特征 DataFrame:

   X = df.drop([‘Survived’, ‘Cabin’, ‘Name’, ‘Embarked’, ‘Ticket’], axis=1)

大佬有話說 (3)

  • 資深大佬 : sadfQED2

    现在的推广连背景都不交代下?

  • 資深大佬 : GeruzoniAnsasu

    软文写得连要推广的自家东西都忘了放进去我还是第一次见

  • 資深大佬 : julyclyde

    就是啊,网址呢?企业名呢?

文章導覽

上一篇文章
下一篇文章

AD

其他操作

  • 登入
  • 訂閱網站內容的資訊提供
  • 訂閱留言的資訊提供
  • WordPress.org 台灣繁體中文

51la

4563博客

全新的繁體中文 WordPress 網站
返回頂端
本站採用 WordPress 建置 | 佈景主題採用 GretaThemes 所設計的 Memory
4563博客
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?
在這裡新增小工具