如何正确使用 pandas 对不规则时间序列进行重采样与插值

本文详解 pandas.DataFrame.resample().interpolate() 的常见误用陷阱,指出直接在 resample().interpolate() 中调用 method='time' 无法实现预期的时序插值,并提供「先聚合再插值」的标准流程,确保温度、湿度等传感器数据在重采样到固定频率(如2分钟)时保持物理合理性与数值准确性。

本文详解 `pandas.DataFrame.resample().interpolate()` 的常见误用陷阱,指出直接在 `resample().interpolate()` 中调用 `method='time'` 无法实现预期的时序插值,并提供「先聚合再插值」的标准流程,确保温度、湿度等传感器数据在重采样到固定频率(如2分钟)时保持物理合理性与数值准确性。

在处理真实世界的时间序列传感器数据(如温湿度记录)时,一个典型需求是将不规则采样的数据(例如每2分钟±120秒内随机触发)统一重采样为严格等间隔(如精确每2分钟一条),以便后续多源数据对齐或建模分析。然而,许多用户会误用 df.resample('2min').interpolate(method='time'),结果发现插值结果异常——如首段大量重复初始值、后续出现线性衰减趋势,甚至完全偏离原始量级。这并非 bug,而是对 resample().interpolate() 执行逻辑的误解。

关键在于:resample().interpolate() 不会在重采样目标时间点之间做插值,而是在每个重采样分组内部对缺失值进行填充。由于原始数据点几乎全部落在不同2分钟桶(bin)中,resample('2min') 首先按左闭右开区间(如 [09:56:00, 09:58:00))分组,绝大多数桶内仅含0或1个观测值。此时 .interpolate() 实际上无有效邻近点可插,只能对单点桶返回原值(或 NaN),再对连续 NaN 桶执行 method='time' 插值——但因缺乏足够锚点,它退化为基于索引位置的线性外推,导致你看到的“斜坡式”错误结果。

✅ 正确做法是两步法:

  1. 先聚合(Aggregation):用 .resample('2min').mean()(或 .first(), .median() 等)生成带空缺的目标时间轴;
  2. 再插值(Interpolation):对聚合后的 DataFrame 调用 .interpolate(method='time'),此时时间索引已规则化,method='time' 才能基于真实时间距离进行加权线性插值。

以下是完整、可复现的修正代码:

import pandas as pd
import numpy as np

np.random.seed(0)
num_rows = 20
data = {
    'temperature': np.random.randint(20, 30, num_rows),
    'humidity': np.random.randint(40, 60, num_rows)
}
time_offsets = np.random.randint(0, 120, num_rows)
time_offsets = pd.to_timedelta(time_offsets, unit='s')
start_time = pd.Timestamp('2024-02-24 09:55:37')
time_indices = [
    start_time + pd.Timedelta(minutes=2*i) + offset 
    for i, offset in enumerate(time_offsets)
]

df = pd.DataFrame(data, index=time_indices)

# ✅ 正确流程:先聚合,再插值
resampled = df.resample('2min').mean()           # 生成规则时间索引,NaN 表示无数据
interpolated = resampled.interpolate(method='time')  # 基于真实时间戳插值

print("原始数据(前5行):")
print(df.head())
print("\n聚合后(前10行,含NaN):")
print(resampled.head(10))
print("\n插值后(前10行):")
print(interpolated.head(10))

? 输出说明:resampled 的索引是严格的 2024-02-24 09:56:00, 09:58:00, 10:00:00…;interpolated 则利用相邻非空时间点(如 10:00:00 和 10:02:00)之间的真实秒数差进行加权插值,结果符合物理直觉。

⚠️ 注意事项

遵循「聚合→插值」范式,即可让 pandas 稳健、准确地完成不规则传感器数据的标准化重采样任务。

本文转载于:互联网 如有侵犯,请联系zhengruancom@outlook.com删除。
免责声明:正软商城发布此文仅为传递信息,不代表正软商城认同其观点或证实其描述。