Friday, September 13, 2019

Menghapus data NaN pada Pandas DataFrame

Pada data yang kita gunakan, umumnya ada data yang tidak ada, alias kosong, alias null, atau None, atau umum ditandai dengan NaN pada Python.

Untuk menghapus data NaN, beserta baris pada data nan tersebut perintah dasarnya adalah,

df.dropna()

dimana "df" adalah pandas dataframe. By default, perintah di atas akan menghapus baris yang mana ada data NaN. Jadi yang dihapus adalah barisnya, axis=0. Untuk menghapus kolom yang berisi Nan, gunakan argumen `axis=1`.

df.dropna(axis=1)

Jika kita syaratkan, baris yang dihapus adalah baris yang semuanya berisi nan, tambahkan argumen "how='all'". Sehingga perintahnya menjadi

df.dropna(axis=0, how='all')  # untuk menghapus baris jika semua adalah nan
df.dropna(axis=1, how='all')   # untuk menghapus kolom jika semua isinya adalah nan


Jadi by default, perintah df.dropna() sama dengan df.dropna(axis=0, how='any').
Silakan lihat screencast di bawah ini untuk prakteknya.

By default juga, hasil penghapusan data NaN tidak disimpan (tidak embedded), jadi perlu disimpan dalam variabel baru, misal b = df.dropna(). Jika ingin langsung, gunakan argumen `inplace=True`. Perhatikan screencast di bawah ini untuk lebih jelasnya.



Jika anda lebih suka menggunakan Numpy untuk menghapus data NaN, caranya ada disini: Menghapus dan mengganti data NaN pada Numpy.<
Related Posts Plugin for WordPress, Blogger...