
本文介绍如何在 Pandas 中实现按循环变化的时间间隔(如 [1.0, 1.5])对时序数据进行智能行筛选:从首行开始,依次累加当前间隔阈值,选取首个满足时间条件的后续行,支持周期性切换间隔,适用于传感器采样、日志降频等场景。
本文介绍如何在 Pandas 中实现按循环变化的时间间隔(如 [1.0, 1.5])对时序数据进行智能行筛选:从首行开始,依次累加当前间隔阈值,选取首个满足时间条件的后续行,支持周期性切换间隔,适用于传感器采样、日志降频等场景。
在实际数据分析中,我们常需对高频时序数据进行有策略的降采样——但标准的 .resample() 或 .iloc[::n] 仅支持固定频率或等距索引,无法应对“首段跳 1.0 秒、次段跳 1.5 秒、再跳 1.0 秒……”这类非均匀、循环式时间步长的筛选需求。Pandas 原生过滤方法(如布尔索引、.query())也无法直接表达“相对于上一个选中行的动态偏移”逻辑,因此需结合 Python 控制流与向量化思想协同实现。
核心思路是:
- 维护一个当前累计时间基准(last_t);
- 使用 itertools.cycle 循环遍历间隔数组(如 [1.0, 1.5]),实现间隔自动轮转;
- 遍历 DataFrame 的 Timestamp 列,对每个时间戳 t,判断是否 t >= last_t + 当前间隔;
- 若满足,则记录该行索引,更新 last_t = t,并切换至下一个间隔值。
以下是完整、可复用的实现代码:
import pandas as pd
from itertools import cycle
# 示例数据构建(与原始问题一致)
df = pd.DataFrame({
"Timestamp": [0.00, 0.94, 1.94, 3.00, 4.00, 5.94, 8.00, 9.00, 10.00],
"MeasureA": [26.46, 26.52, 30.01, 30.19, 30.07, 30.02, 30.22, 30.00, 30.00],
"MeasureB": [63.60, 78.87, 82.04, 82.00, 81.43, 82.46, 82.48, 82.21, 82.34],
"MeasureC": [3.90, 1.58, 1.13, 1.17, 1.13, 1.05, 0.98, 1.13, 1.12],
"MeasureD": [0.67, 0.42, 0.46, 0.36, 0.42, 0.34, 0.35, 0.33, 0.34]
})
# 定义非均匀时间间隔(将按顺序循环使用)
intervals = [1.0, 1.5]
# 初始化:时间基准设为负无穷,确保首行必被选中
comparing = cycle(intervals)
out_indices = []
last_t = float("-inf")
current_interval = next(comparing)
# 主循环:逐行扫描,动态决策
for idx, t in zip(df.index, df["Timestamp"]):
if t >= last_t + current_interval:
out_indices.append(idx)
last_t = t
current_interval = next(comparing) # 切换至下一间隔
# 构建结果 DataFrame
result_df = df.loc[out_indices].reset_index(drop=True)
print(result_df)✅ 输出结果(与预期完全一致):
Timestamp MeasureA MeasureB MeasureC MeasureD 0 0.00 26.46 63.60 3.90 0.67 1 1.94 30.01 82.04 1.13 0.46 2 4.00 30.07 81.43 1.13 0.42 3 5.94 30.02 82.46 1.05 0.34 4 8.00 30.22 82.48 0.98 0.35 5 9.00 30.00 82.21 1.13 0.33
⚠️ 关键注意事项:
- 时间列必须有序:该算法假设 Timestamp 单调递增(或至少非递减)。若存在乱序,需预先执行 df = df.sort_values("Timestamp").reset_index(drop=True);
- 首行恒被保留:因 last_t = -inf,首个 t 必满足 t >= -inf + interval,符合“从第一行启动”的业务逻辑;
- 间隔轮转机制:cycle([1.0, 1.5]) 会无限生成 1.0 → 1.5 → 1.0 → 1.5 → ...,无需手动重置;
- 性能提示:对超大数据集(百万级行),此 Python 循环仍高效(因仅单次遍历且无嵌套);若追求极致性能,可考虑用 numba 加速,但通常非必需。
该方法灵活、清晰、无外部依赖,是 Pandas 生态中处理“状态依赖型时序筛选”的典型范式——它不依赖向量化语法的表面简洁,而以明确的状态管理换取逻辑的鲁棒性与可扩展性。