# 数据预处理
本文介绍 ROM Builder 工具箱中数据预处理的各種方法及其原理、效果和适用场景。
# 1. 积分(仅支持动态模型使用)
原理: 积分操作用于将离散时间序列数据累加,常用于物理量的累计计算。例如,通过速度积分得到位移,通过加速度积分得到速度。
效果:
- 将变化率数据转换为累积数据,便于分析累积效应。
- 积分步长影响积分精度,步长越小精度越高,但计算量越大。
适用场景:
- 需要从变化率数据推导累积数据的场景,如位移、流量累计等。
参数说明:
- 积分步长:
- 原理:决定积分计算的时间间隔,影响积分精度和计算效率。
- 建议:通常与原始数据采样间隔一致,避免信息损失或过度计算。
# 2. 微分(仅支持动态模型使用)
原理: 微分操作用于计算变量的变化率,常用于分析动态响应。例如,通过位移微分得到速度,通过速度微分得到加速度。
效果:
- 将累积数据转换为变化率数据,便于分析动态特性。
- 微分步长影响微分结果的平滑性,步长过大可能导致噪声放大。
适用场景:
- 需要分析系统动态响应或变化趋势的场景,如控制系统、振动分析等。
参数说明:
- 微分步长:
- 原理:决定微分计算的时间间隔,影响微分结果的平滑性和噪声敏感性。
- 建议:通常与原始数据采样间隔一致,必要时可适当增大步长以平滑噪声。
# 3. 绝对值
原理: 获取变量的绝对值。
作用: 消除变量的符号影响,只关心量值的大小,不考虑方向性。
适用场景:
- 能量、功率等物理量分析,通常只关心大小。
- 误差分析,需要评估误差的量级而不考虑方向。
# 4. 倒数
原理: 获取变量的倒数。
作用: 用于物理量反比关系建模,如电阻与导电率、频率与周期等。
适用场景:
- 物理量之间存在反比关系时,通过倒数变换简化模型。
# 5. 相反数
原理: 获取变量的相反数。
作用: 用于符号变换或对称性分析,便于处理方向相反的物理量。
适用场景:
- 坐标变换、方向调整等场景。
# 6. 数据平移
原理: 选择的变量加上平移量。
参数: 平移量。
原理: 通过加减常数调整变量的零点,消除偏置或调整基准。
效果:
- 改变变量的数值范围,但不改变变量的变化规律。
- 可用于消除系统偏置或统一不同数据源的基准。
适用场景:
- 消除传感器零点漂移、统一不同测量设备的基准等。
# 7. 缩放
原理: 选择的变量乘上缩放系数。
参数: 缩放系数。
原理: 通过乘以常数调整变量的量纲或数值范围,实现归一化或单位转换。
效果:
- 改变变量的数值范围和量纲,便于不同变量间的比较和计算。
- 可用于归一化处理,消除量纲差异。
适用场景:
- 归一化处理、单位转换、调整变量量级等。
# 8. 均值平滑
原理: 对选择的变量进行均值滤波。
原理: 通过滑动窗口取均值,降低噪声,提高数据平滑性。均值滤波是一种简单的低通滤波器,可以抑制高频噪声。
效果:
- 减少数据中的随机噪声,提高信号的信噪比。
- 保留数据的主要趋势,但可能模糊突变特征。
适用场景:
- 数据存在高频噪声,需要平滑处理的场景。
参数说明:
- 窗口大小:
- 原理:决定滑动窗口的长度,影响平滑程度和滞后性。
- 效果:窗口越大,平滑效果越好,但滞后性越强;窗口越小,滞后性越弱,但平滑效果越差。
# 9. 符号函数
原理: 将变量作为输入,传递给 sgn 函数,获取函数输出值。
原理: 符号函数输出变量的正负性,即:
- 输入 > 0,输出 = 1
- 输入 = 0,输出 = 0
- 输入 < 0,输出 = -1
效果:
- 将连续变量离散化为符号,便于分类或阈值判断。
适用场景:
- 分类问题、阈值判断、方向判断等场景。
# 10. 加法
原理: 选择两个变量进行加法计算。
作用: 用于变量组合或总量计算,如多个分量的和、多个输入的总和等。
适用场景:
- 叠加效应、总量计算、变量组合等。
# 11. 减法
原理: 选择两个变量进行减法计算。
作用: 用于变量差异分析,如两个状态的差值、误差计算等。
适用场景:
- 差异分析、误差计算、变化量计算等。
# 12. 乘法
原理: 选择两个变量进行乘法计算。
作用: 用于变量间的乘积关系建模。
适用场景:
- 乘积关系建模、比例缩放、非线性变换等。
# 13. 除法
原理: 选择两个变量进行除法计算。
作用: 用于变量间的比值关系建模。
适用场景:
- 比值关系建模、归一化计算、比例系数等。
# 14. 自定义
原理: 对变量进行自定义公式计算。
作用: 可根据实际需求灵活组合变量,实现复杂特征工程。
适用场景:
- 复杂物理关系建模、特殊特征提取、多变量组合等。