# 归一化方案


本文介绍 ROM Builder 工具箱中支持的各种归一化方法及其计算公式、优缺点和适用场景。

# 1. 最大最小化归一化

对原始参数进行最大最小化归一化,训练测试完成后对输出结果进行反归一化。最大最小值归一化公式如下:

特点:

  • 简单易实现,结果易于理解,归一化后的数据被限定在特定的范围内
  • 由于它是基于数据的最大值和最小值进行归一化,容易受到异常值影响
  • 适用于对输出范围有严格要求时,如某些神经网络算法需要输入在 [0,1] 之间
  • 每次有新的值加入,之前的结果会发生改变,导致不稳定

# 2. 标准差归一化

对原始参数进行标准差归一化,训练测试完成后对输出结果进行反归一化。标准差归一化公式为:

其中, 是数据的均值, 是数据的标准差。

特点:

  • 基于均值和标准差进行缩放,能够保留数据的分布信息
  • 对异常值较为敏感,因为异常值会影响均值和标准差的计算结果
  • 适用于数据分布较稳定、希望保留中心位置和离散程度信息的场景;当数据近似服从正态分布时通常效果更好

# 3. 对数归一化

对原始参数进行 log 对数归一化,训练测试完成后对输出结果进行反归一化。log 对数归一化公式为:

特点:

  • 使用时要求原始数据大于 0
  • 适用于数据分布呈现指数级别的差异

# 4. 反正切函数归一化

对原始数据进行反正切归一化,训练测试完成后对输出结果进行反归一化。反正切归一化公式为:

特点:

  • 归一化后的数据范围为 [-1, 1]
  • 适用于数据分化程度较大的、数据分布非常广泛的场景

# 5. 不进行归一化

不对数据做处理,用原始数据参与模型训练。

适用场景:

  • 数据特征提取简单或者特征数量级接近的数据