前言

在数据分析的日常工作中,我们几乎总会遇到一个“老朋友”——数据缺失。简单来说,它指的就是数据集中某些特征的值不完整,出现了空缺。

有意思的是,这个“空缺”在不同环境下的“马甲”还不一样:在数据库里它叫 Null,在 Python 里返回 None,而到了 pandas 或 Numpy 的地盘,它就变成了 NaN

这里有个关键点需要厘清:缺失值可不等同于空字符串。空字符串好歹是个有实体的字符串类型,而缺失值则是“无”,本身没有数据类型。

接下来,我们就系统性地梳理一下,在 pandas 这个数据分析利器里,如何检测、统计并最终处理这些恼人的缺失值。

一、缺失值的检测与统计

处理缺失值的第一步,是做到“心中有数”。你得清楚数据里哪些字段有缺失,缺失的比例又有多大。这步的定量分析至关重要。

pandas 为此提供了两把“标尺”:isnull() 用来识别缺失值,notnull() 则用来识别非缺失值。它们返回的都是布尔值(True 或 False)。我们以下面读取的数据为例:

import pandas as pd

df =pd.read_excel('sass.xlsx') # 读取数据
print(df)

pandas中数据缺失值的检测,统计与处理教学

查看每列是否有缺失值

想快速了解各列的健康状况?df.isnull().any() 这个方法很管用。返回结果中,True 就代表该列存在缺失值,False 则表示该列完好无损

print('每列是否存在缺失值:\n', df.isnull().any()) # True表示有缺失,False表示无缺失

pandas中数据缺失值的检测,统计与处理教学

显示数据缺失情况、位置

如果想知道缺失值具体藏在哪些单元格,df.isnull() 会给你一张清晰的“藏宝图”。输出结果中,True 标记的就是缺失值的位置

print('数据缺失值查看:\n', df.isnull())  # True表示缺失,False表示未缺失

pandas中数据缺失值的检测,统计与处理教学

统计每列缺失值个数

光知道位置还不够,我们还需要量化问题。将 sum() 函数与 isnull()notnull() 结合,就能轻松统计出每列缺失值的具体数量,从而对数据缺失的分布一目了然。

print('每列数据缺失的个数:\n', df.isnull().sum())

pandas中数据缺失值的检测,统计与处理教学

注:notnull() 的用法与 isnull() 完全一致,只是含义相反,用于统计非缺失值的情况。

二、缺失值的处理

直接删除缺失值(删除法)

这是最直接了当的方法:把带有缺失值的行或列整个删掉。听起来简单粗暴,但需要警惕的是,这种方法会直接削减数据特征,有时可能会丢失重要信息。因此,是否采用删除法,得根据数据情况和分析目标慎重决定。

pandas 中的 dropna() 方法就是干这个的,它的语法结构如下:

DataFrame.dropna(self,axis=0,how='any',thresh=None,subset=None,inplace=False)
参数释义
axis接收0或1,表示轴向,0表示行,1表示列。默认为0
how接收特定string,表示删除形式。取值为“any”,表示只要有缺失值就执行删除操作,取值为“all”,表示当且仅当全部为缺失值时才执行删除操作。默认为“any”
subset接收array,表示根据去重的行/列条件。默认为None,所有行/列
inplace接收布尔值,代表操作是否对原数据生效,默认为False

我们以这份原始数据(df1)来演示:

pandas中数据缺失值的检测,统计与处理教学

实例1:删除存在缺失值(NaN)的所有列

df2 =df1.dropna(axis=1)
print('删除存在缺失值的所有列后:\n', df2)

pandas中数据缺失值的检测,统计与处理教学

实例2:删除特定字段存在缺失值(NaN)的行。

比如,我们只想删除‘Protein’或‘CHO’这两个字段中任何一个存在缺失值的行。

df3 = df1.dropna(subset=['Protein', 'CHO'])
print('删除特定字段为空的行:\n', df3)

pandas中数据缺失值的检测,统计与处理教学

替换补齐缺失值

与直接删除相比,替换补齐是更为常用和灵活的策略。其核心思想是,用一个合理的估计值来填充缺失的部分。

这里的“合理”取决于数据的类型:

当然,根据具体场景,随机填充、特殊值填充(如用-999表示缺失)乃至使用预测模型进行填充,也都是可选的方法。

Pandas 的 fillna() 方法为此提供了强大支持,其语法如下:

DataFrame.fillna(value=None,method=None,axis=1,inplace=False,limit=None)
参数释义
value接收dict、DataFrame等类型数据,表示用来替换缺失值的值。无默认值
method接收特定string:(1)取值为“backfill”或“bfill”,表示使用下一个非缺失值来填补缺失值。(2)取值为“pad”或“ffill”,表示使用上一个非缺失值来填补缺失值。默认为None
axis接收0或1,表示轴向。默认为1
inplace接收布尔值,代表操作是否对原数据生效,默认为False
limit接收int,表示填补缺失值个数上限,超过则不进行填补。默认为None

还是以上面的数据(df1)为例,这次我们尝试将所有缺失值(NaN)统一填充为0:

df4 = df1.fillna(value=0)
print('将所有缺失值填充为0:\n', df4)

pandas中数据缺失值的检测,统计与处理教学

注:这里将全部缺失值填充为0,仅为演示方法之用。在实际操作中,务必根据数据特性和分析需求,选择最合理的值进行填充,这样才能为后续的数据分析和建模打下可靠的基础。

以上便是关于 pandas 中数据缺失值从检测、统计到处理的完整教学。掌握这些方法,你就能更加从容地应对数据分析中的“不完整”挑战。

本文转载于:https://www.jb51.net/python/362270ihg.htm 如有侵犯,请联系zhengruancom@outlook.com删除。
免责声明:正软商城发布此文仅为传递信息,不代表正软商城认同其观点或证实其描述。