丢弃数据即根据 过滤条件 丢弃掉部分 无用数据 。
默认情况下 axis=0 (对行操作)。
三种方法:
drop() :根据标签丢弃多行或者多列数据。
duplicated() 方法返回一个布尔型的Series,表示各行是否是重复行,仅仅将重复的最后一行标记为True。
I.返回布尔型Series:
II.通过布尔过滤,丢弃掉数据:
III. drop_duplicates() 方法更简单的完成去重(本例只希望根据"one"列判断重复项):
dropna() 方法可以丢弃缺失值相关数据。
丢弃所有列均为缺失值的行,并且替换原来的对象:
isnull() :对Pandas对象中的所有数值进行逐一判断,返回一个同样大小的对象。如果是NaN,则返回True。
True和False在进行算术运算时,可以将其分别视为1和0。所以为了统计每一行或者每一列的缺失值数量,我们可以直接沿或者沿列进行求和:
使用 fillna() 方法的四种填补方式:
例:使用0填补
通过设置 method 参数实现:
例:
通过传入字典实现。
例:对"one"列使"0"填补,对"three"列使用"1"填补。
利用Pandas的自动对齐功能,我们可以直接向fillna()传入Pandas对象。