⋮

# 数据预处理

本文介绍 ROM Builder 工具箱中数据预处理的各種方法及其原理、效果和适用场景。

# 1. 积分（仅支持动态模型使用）

原理： 积分操作用于将离散时间序列数据累加，常用于物理量的累计计算。例如，通过速度积分得到位移，通过加速度积分得到速度。

效果：

将变化率数据转换为累积数据，便于分析累积效应。
积分步长影响积分精度，步长越小精度越高，但计算量越大。

适用场景：

需要从变化率数据推导累积数据的场景，如位移、流量累计等。

参数说明：

积分步长：
- 原理：决定积分计算的时间间隔，影响积分精度和计算效率。
- 建议：通常与原始数据采样间隔一致，避免信息损失或过度计算。

# 2. 微分（仅支持动态模型使用）

原理： 微分操作用于计算变量的变化率，常用于分析动态响应。例如，通过位移微分得到速度，通过速度微分得到加速度。

效果：

将累积数据转换为变化率数据，便于分析动态特性。
微分步长影响微分结果的平滑性，步长过大可能导致噪声放大。

适用场景：

需要分析系统动态响应或变化趋势的场景，如控制系统、振动分析等。

参数说明：

微分步长：
- 原理：决定微分计算的时间间隔，影响微分结果的平滑性和噪声敏感性。
- 建议：通常与原始数据采样间隔一致，必要时可适当增大步长以平滑噪声。

# 3. 绝对值

原理： 获取变量的绝对值。

作用： 消除变量的符号影响，只关心量值的大小，不考虑方向性。

适用场景：

能量、功率等物理量分析，通常只关心大小。
误差分析，需要评估误差的量级而不考虑方向。

# 4. 倒数

原理： 获取变量的倒数。

作用： 用于物理量反比关系建模，如电阻与导电率、频率与周期等。

适用场景：

物理量之间存在反比关系时，通过倒数变换简化模型。

# 5. 相反数

原理： 获取变量的相反数。

作用： 用于符号变换或对称性分析，便于处理方向相反的物理量。

适用场景：

坐标变换、方向调整等场景。

# 6. 数据平移

原理： 选择的变量加上平移量。

参数： 平移量。

原理： 通过加减常数调整变量的零点，消除偏置或调整基准。

效果：

改变变量的数值范围，但不改变变量的变化规律。
可用于消除系统偏置或统一不同数据源的基准。

适用场景：

消除传感器零点漂移、统一不同测量设备的基准等。

# 7. 缩放

原理： 选择的变量乘上缩放系数。

参数： 缩放系数。

原理： 通过乘以常数调整变量的量纲或数值范围，实现归一化或单位转换。

效果：

改变变量的数值范围和量纲，便于不同变量间的比较和计算。
可用于归一化处理，消除量纲差异。

适用场景：

归一化处理、单位转换、调整变量量级等。

# 8. 均值平滑

原理： 对选择的变量进行均值滤波。

原理： 通过滑动窗口取均值，降低噪声，提高数据平滑性。均值滤波是一种简单的低通滤波器，可以抑制高频噪声。

效果：

减少数据中的随机噪声，提高信号的信噪比。
保留数据的主要趋势，但可能模糊突变特征。

适用场景：

数据存在高频噪声，需要平滑处理的场景。

参数说明：

窗口大小：
- 原理：决定滑动窗口的长度，影响平滑程度和滞后性。
- 效果：窗口越大，平滑效果越好，但滞后性越强；窗口越小，滞后性越弱，但平滑效果越差。

# 9. 符号函数

原理： 将变量作为输入，传递给 sgn 函数，获取函数输出值。

原理： 符号函数输出变量的正负性，即：

输入 > 0，输出 = 1
输入 = 0，输出 = 0
输入 < 0，输出 = -1

效果：

将连续变量离散化为符号，便于分类或阈值判断。

适用场景：

分类问题、阈值判断、方向判断等场景。

# 10. 加法

原理： 选择两个变量进行加法计算。

作用： 用于变量组合或总量计算，如多个分量的和、多个输入的总和等。

适用场景：

叠加效应、总量计算、变量组合等。

# 11. 减法

原理： 选择两个变量进行减法计算。

作用： 用于变量差异分析，如两个状态的差值、误差计算等。

适用场景：

差异分析、误差计算、变化量计算等。

# 12. 乘法

原理： 选择两个变量进行乘法计算。

作用： 用于变量间的乘积关系建模。

适用场景：

乘积关系建模、比例缩放、非线性变换等。

# 13. 除法

原理： 选择两个变量进行除法计算。

作用： 用于变量间的比值关系建模。

适用场景：

比值关系建模、归一化计算、比例系数等。

# 14. 自定义

原理： 对变量进行自定义公式计算。

作用： 可根据实际需求灵活组合变量，实现复杂特征工程。

适用场景：

复杂物理关系建模、特殊特征提取、多变量组合等。