Pandas 实现基于动态时间间隔的行筛选（非均匀步长采样）

时间：2026-04-01

本文介绍如何在 Pandas 中实现按循环变化的时间间隔（如 [1.0, 1.5]）对时序数据进行智能行筛选：从首行开始，依次累加当前间隔阈值，选取首个满足时间条件的后续行，支持周期性切换间隔，适用于传感器采样、日志降频等场景。

本文介绍如何在 Pandas 中实现按循环变化的时间间隔（如 [1.0, 1.5]）对时序数据进行智能行筛选：从首行开始，依次累加当前间隔阈值，选取首个满足时间条件的后续行，支持周期性切换间隔，适用于传感器采样、日志降频等场景。

在实际数据分析中，我们常需对高频时序数据进行有策略的降采样——但标准的 .resample() 或 .iloc[::n] 仅支持固定频率或等距索引，无法应对“首段跳 1.0 秒、次段跳 1.5 秒、再跳 1.0 秒……”这类非均匀、循环式时间步长的筛选需求。Pandas 原生过滤方法（如布尔索引、.query()）也无法直接表达“相对于上一个选中行的动态偏移”逻辑，因此需结合 Python 控制流与向量化思想协同实现。

核心思路是：

维护一个当前累计时间基准（last_t）；
使用 itertools.cycle 循环遍历间隔数组（如 [1.0, 1.5]），实现间隔自动轮转；
遍历 DataFrame 的 Timestamp 列，对每个时间戳 t，判断是否 t >= last_t + 当前间隔；
若满足，则记录该行索引，更新 last_t = t，并切换至下一个间隔值。

以下是完整、可复用的实现代码：

import pandas as pd
from itertools import cycle

# 示例数据构建（与原始问题一致）
df = pd.DataFrame({
    "Timestamp": [0.00, 0.94, 1.94, 3.00, 4.00, 5.94, 8.00, 9.00, 10.00],
    "MeasureA": [26.46, 26.52, 30.01, 30.19, 30.07, 30.02, 30.22, 30.00, 30.00],
    "MeasureB": [63.60, 78.87, 82.04, 82.00, 81.43, 82.46, 82.48, 82.21, 82.34],
    "MeasureC": [3.90, 1.58, 1.13, 1.17, 1.13, 1.05, 0.98, 1.13, 1.12],
    "MeasureD": [0.67, 0.42, 0.46, 0.36, 0.42, 0.34, 0.35, 0.33, 0.34]
})

# 定义非均匀时间间隔（将按顺序循环使用）
intervals = [1.0, 1.5]

# 初始化：时间基准设为负无穷，确保首行必被选中
comparing = cycle(intervals)
out_indices = []
last_t = float("-inf")
current_interval = next(comparing)

# 主循环：逐行扫描，动态决策
for idx, t in zip(df.index, df["Timestamp"]):
    if t >= last_t + current_interval:
        out_indices.append(idx)
        last_t = t
        current_interval = next(comparing)  # 切换至下一间隔

# 构建结果 DataFrame
result_df = df.loc[out_indices].reset_index(drop=True)
print(result_df)

✅ 输出结果（与预期完全一致）：

   Timestamp  MeasureA  MeasureB  MeasureC  MeasureD
0       0.00     26.46     63.60      3.90      0.67
1       1.94     30.01     82.04      1.13      0.46
2       4.00     30.07     81.43      1.13      0.42
3       5.94     30.02     82.46      1.05      0.34
4       8.00     30.22     82.48      0.98      0.35
5       9.00     30.00     82.21      1.13      0.33

⚠️ 关键注意事项：

时间列必须有序：该算法假设 Timestamp 单调递增（或至少非递减）。若存在乱序，需预先执行 df = df.sort_values("Timestamp").reset_index(drop=True)；
首行恒被保留：因 last_t = -inf，首个 t 必满足 t >= -inf + interval，符合“从第一行启动”的业务逻辑；
间隔轮转机制：cycle([1.0, 1.5]) 会无限生成 1.0 → 1.5 → 1.0 → 1.5 → ...，无需手动重置；
性能提示：对超大数据集（百万级行），此 Python 循环仍高效（因仅单次遍历且无嵌套）；若追求极致性能，可考虑用 numba 加速，但通常非必需。

该方法灵活、清晰、无外部依赖，是 Pandas 生态中处理“状态依赖型时序筛选”的典型范式——它不依赖向量化语法的表面简洁，而以明确的状态管理换取逻辑的鲁棒性与可扩展性。

本文转载于：互联网如有侵犯，请联系zhengruancom@outlook.com删除。
免责声明：正软商城发布此文仅为传递信息，不代表正软商城认同其观点或证实其描述。

Pandas 实现基于动态时间间隔的行筛选（非均匀步长采样）

同类商品

DAEMON Tools Lite 10【序列号终身授权 + 中文版 + Win】

DAEMON Tools Ultra 5【序列号终身授权 + 中文版 + Win】

DAEMON Tools Pro 8【序列号终身授权 + 中文版 + Win】

CorelDRAW X8 简体中文【标准版 + Win】

相关文章