# 数据预处理


本文介绍 ROM Builder 工具箱中数据预处理的各種方法及其原理、效果和适用场景。

# 1. 积分(仅支持动态模型使用)

原理: 积分操作用于将离散时间序列数据累加,常用于物理量的累计计算。例如,通过速度积分得到位移,通过加速度积分得到速度。

效果:

  • 将变化率数据转换为累积数据,便于分析累积效应。
  • 积分步长影响积分精度,步长越小精度越高,但计算量越大。

适用场景:

  • 需要从变化率数据推导累积数据的场景,如位移、流量累计等。

参数说明:

  • 积分步长
    • 原理:决定积分计算的时间间隔,影响积分精度和计算效率。
    • 建议:通常与原始数据采样间隔一致,避免信息损失或过度计算。

# 2. 微分(仅支持动态模型使用)

原理: 微分操作用于计算变量的变化率,常用于分析动态响应。例如,通过位移微分得到速度,通过速度微分得到加速度。

效果:

  • 将累积数据转换为变化率数据,便于分析动态特性。
  • 微分步长影响微分结果的平滑性,步长过大可能导致噪声放大。

适用场景:

  • 需要分析系统动态响应或变化趋势的场景,如控制系统、振动分析等。

参数说明:

  • 微分步长
    • 原理:决定微分计算的时间间隔,影响微分结果的平滑性和噪声敏感性。
    • 建议:通常与原始数据采样间隔一致,必要时可适当增大步长以平滑噪声。

# 3. 绝对值

原理: 获取变量的绝对值。

作用: 消除变量的符号影响,只关心量值的大小,不考虑方向性。

适用场景:

  • 能量、功率等物理量分析,通常只关心大小。
  • 误差分析,需要评估误差的量级而不考虑方向。

# 4. 倒数

原理: 获取变量的倒数。

作用: 用于物理量反比关系建模,如电阻与导电率、频率与周期等。

适用场景:

  • 物理量之间存在反比关系时,通过倒数变换简化模型。

# 5. 相反数

原理: 获取变量的相反数。

作用: 用于符号变换或对称性分析,便于处理方向相反的物理量。

适用场景:

  • 坐标变换、方向调整等场景。

# 6. 数据平移

原理: 选择的变量加上平移量。

参数: 平移量。

原理: 通过加减常数调整变量的零点,消除偏置或调整基准。

效果:

  • 改变变量的数值范围,但不改变变量的变化规律。
  • 可用于消除系统偏置或统一不同数据源的基准。

适用场景:

  • 消除传感器零点漂移、统一不同测量设备的基准等。

# 7. 缩放

原理: 选择的变量乘上缩放系数。

参数: 缩放系数。

原理: 通过乘以常数调整变量的量纲或数值范围,实现归一化或单位转换。

效果:

  • 改变变量的数值范围和量纲,便于不同变量间的比较和计算。
  • 可用于归一化处理,消除量纲差异。

适用场景:

  • 归一化处理、单位转换、调整变量量级等。

# 8. 均值平滑

原理: 对选择的变量进行均值滤波。

原理: 通过滑动窗口取均值,降低噪声,提高数据平滑性。均值滤波是一种简单的低通滤波器,可以抑制高频噪声。

效果:

  • 减少数据中的随机噪声,提高信号的信噪比。
  • 保留数据的主要趋势,但可能模糊突变特征。

适用场景:

  • 数据存在高频噪声,需要平滑处理的场景。

参数说明:

  • 窗口大小
    • 原理:决定滑动窗口的长度,影响平滑程度和滞后性。
    • 效果:窗口越大,平滑效果越好,但滞后性越强;窗口越小,滞后性越弱,但平滑效果越差。

# 9. 符号函数

原理: 将变量作为输入,传递给 sgn 函数,获取函数输出值。

原理: 符号函数输出变量的正负性,即:

  • 输入 > 0,输出 = 1
  • 输入 = 0,输出 = 0
  • 输入 < 0,输出 = -1

效果:

  • 将连续变量离散化为符号,便于分类或阈值判断。

适用场景:

  • 分类问题、阈值判断、方向判断等场景。

# 10. 加法

原理: 选择两个变量进行加法计算。

作用: 用于变量组合或总量计算,如多个分量的和、多个输入的总和等。

适用场景:

  • 叠加效应、总量计算、变量组合等。

# 11. 减法

原理: 选择两个变量进行减法计算。

作用: 用于变量差异分析,如两个状态的差值、误差计算等。

适用场景:

  • 差异分析、误差计算、变化量计算等。

# 12. 乘法

原理: 选择两个变量进行乘法计算。

作用: 用于变量间的乘积关系建模。

适用场景:

  • 乘积关系建模、比例缩放、非线性变换等。

# 13. 除法

原理: 选择两个变量进行除法计算。

作用: 用于变量间的比值关系建模。

适用场景:

  • 比值关系建模、归一化计算、比例系数等。

# 14. 自定义

原理: 对变量进行自定义公式计算。

作用: 可根据实际需求灵活组合变量,实现复杂特征工程。

适用场景:

  • 复杂物理关系建模、特殊特征提取、多变量组合等。