pandas中数据缺失值的检测,统计与处理教学

时间：2026-05-02

前言

在数据分析的日常工作中，我们几乎总会遇到一个“老朋友”——数据缺失。简单来说，它指的就是数据集中某些特征的值不完整，出现了空缺。

有意思的是，这个“空缺”在不同环境下的“马甲”还不一样：在数据库里它叫 Null，在 Python 里返回 None，而到了 pandas 或 Numpy 的地盘，它就变成了 NaN。

这里有个关键点需要厘清：缺失值可不等同于空字符串。空字符串好歹是个有实体的字符串类型，而缺失值则是“无”，本身没有数据类型。

接下来，我们就系统性地梳理一下，在 pandas 这个数据分析利器里，如何检测、统计并最终处理这些恼人的缺失值。

一、缺失值的检测与统计

处理缺失值的第一步，是做到“心中有数”。你得清楚数据里哪些字段有缺失，缺失的比例又有多大。这步的定量分析至关重要。

pandas 为此提供了两把“标尺”：isnull() 用来识别缺失值，notnull() 则用来识别非缺失值。它们返回的都是布尔值（True 或 False）。我们以下面读取的数据为例：

import pandas as pd

df =pd.read_excel('sass.xlsx') # 读取数据
print(df)

pandas中数据缺失值的检测,统计与处理教学

查看每列是否有缺失值

想快速了解各列的健康状况？df.isnull().any() 这个方法很管用。返回结果中，True 就代表该列存在缺失值，False 则表示该列完好无损。

print('每列是否存在缺失值：\n', df.isnull().any()) # True表示有缺失，False表示无缺失

pandas中数据缺失值的检测,统计与处理教学

显示数据缺失情况、位置

如果想知道缺失值具体藏在哪些单元格，df.isnull() 会给你一张清晰的“藏宝图”。输出结果中，True 标记的就是缺失值的位置。

print('数据缺失值查看：\n', df.isnull())  # True表示缺失，False表示未缺失

pandas中数据缺失值的检测,统计与处理教学

统计每列缺失值个数

光知道位置还不够，我们还需要量化问题。将 sum() 函数与 isnull() 或 notnull() 结合，就能轻松统计出每列缺失值的具体数量，从而对数据缺失的分布一目了然。

print('每列数据缺失的个数：\n', df.isnull().sum())

pandas中数据缺失值的检测,统计与处理教学

注：notnull() 的用法与 isnull() 完全一致，只是含义相反，用于统计非缺失值的情况。

二、缺失值的处理

直接删除缺失值（删除法）

这是最直接了当的方法：把带有缺失值的行或列整个删掉。听起来简单粗暴，但需要警惕的是，这种方法会直接削减数据特征，有时可能会丢失重要信息。因此，是否采用删除法，得根据数据情况和分析目标慎重决定。

pandas 中的 dropna() 方法就是干这个的，它的语法结构如下：

DataFrame.dropna(self,axis=0,how='any',thresh=None,subset=None,inplace=False)

参数	释义
axis	接收0或1，表示轴向，0表示行，1表示列。默认为0
how	接收特定string,表示删除形式。取值为“any”，表示只要有缺失值就执行删除操作，取值为“all”，表示当且仅当全部为缺失值时才执行删除操作。默认为“any”
subset	接收array,表示根据去重的行/列条件。默认为None，所有行/列
inplace	接收布尔值，代表操作是否对原数据生效，默认为False

我们以这份原始数据（df1）来演示：

pandas中数据缺失值的检测,统计与处理教学

实例1：删除存在缺失值（NaN）的所有列

df2 =df1.dropna(axis=1)
print('删除存在缺失值的所有列后：\n', df2)

pandas中数据缺失值的检测,统计与处理教学

实例2：删除特定字段存在缺失值（NaN）的行。

比如，我们只想删除‘Protein’或‘CHO’这两个字段中任何一个存在缺失值的行。

df3 = df1.dropna(subset=['Protein', 'CHO'])
print('删除特定字段为空的行:\n', df3)

pandas中数据缺失值的检测,统计与处理教学

替换补齐缺失值

与直接删除相比，替换补齐是更为常用和灵活的策略。其核心思想是，用一个合理的估计值来填充缺失的部分。

这里的“合理”取决于数据的类型：

对于数值型特征，通常采用均值、中位数或众数这类代表集中趋势的统计量来填补。
对于类别型特征，则常用该特征的众数（出现最频繁的类别）来填充。

当然，根据具体场景，随机填充、特殊值填充（如用-999表示缺失）乃至使用预测模型进行填充，也都是可选的方法。

Pandas 的 fillna() 方法为此提供了强大支持，其语法如下：

DataFrame.fillna(value=None,method=None,axis=1,inplace=False,limit=None)

参数	释义
value	接收dict、DataFrame等类型数据，表示用来替换缺失值的值。无默认值
method	接收特定string：（1）取值为“backfill”或“bfill”,表示使用下一个非缺失值来填补缺失值。（2）取值为“pad”或“ffill”，表示使用上一个非缺失值来填补缺失值。默认为None
axis	接收0或1，表示轴向。默认为1
inplace	接收布尔值，代表操作是否对原数据生效，默认为False
limit	接收int,表示填补缺失值个数上限，超过则不进行填补。默认为None

还是以上面的数据（df1）为例，这次我们尝试将所有缺失值（NaN）统一填充为0：

df4 = df1.fillna(value=0)
print('将所有缺失值填充为0：\n', df4)

pandas中数据缺失值的检测,统计与处理教学

注：这里将全部缺失值填充为0，仅为演示方法之用。在实际操作中，务必根据数据特性和分析需求，选择最合理的值进行填充，这样才能为后续的数据分析和建模打下可靠的基础。

以上便是关于 pandas 中数据缺失值从检测、统计到处理的完整教学。掌握这些方法，你就能更加从容地应对数据分析中的“不完整”挑战。

本文转载于：https://www.jb51.net/python/362270ihg.htm 如有侵犯，请联系zhengruancom@outlook.com删除。
免责声明：正软商城发布此文仅为传递信息，不代表正软商城认同其观点或证实其描述。

pandas中数据缺失值的检测,统计与处理教学

前言

一、缺失值的检测与统计

查看每列是否有缺失值

显示数据缺失情况、位置

统计每列缺失值个数

二、缺失值的处理

直接删除缺失值（删除法）

替换补齐缺失值

同类商品

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

CorelDRAW X8 简体中文【标准版 + Win】

相关文章