4.坏数据处理(丢弃、填补)

如题所述

第1个回答  2022-07-23

丢弃数据即根据 过滤条件 丢弃掉部分 无用数据

默认情况下 axis=0 (对行操作)。

三种方法:

drop() :根据标签丢弃多行或者多列数据。

duplicated() 方法返回一个布尔型的Series,表示各行是否是重复行,仅仅将重复的最后一行标记为True。

I.返回布尔型Series:

II.通过布尔过滤,丢弃掉数据:

III. drop_duplicates() 方法更简单的完成去重(本例只希望根据"one"列判断重复项):

dropna() 方法可以丢弃缺失值相关数据。

丢弃所有列均为缺失值的行,并且替换原来的对象:

isnull() :对Pandas对象中的所有数值进行逐一判断,返回一个同样大小的对象。如果是NaN,则返回True。

True和False在进行算术运算时,可以将其分别视为1和0。所以为了统计每一行或者每一列的缺失值数量,我们可以直接沿或者沿列进行求和:

使用 fillna() 方法的四种填补方式:

例:使用0填补

通过设置 method 参数实现:

例:

通过传入字典实现。

例:对"one"列使"0"填补,对"three"列使用"1"填补。

利用Pandas的自动对齐功能,我们可以直接向fillna()传入Pandas对象。

相似回答