# 统计检验方法
本文介绍 ROM Builder 工具箱模型检验中常用的统计检验方法及其计算公式、指标含义和适用场景。统计检验用于比较原始数据与 ROM 模型预测数据之间的差异,帮助用户从整体工况、单个工况和单个变量等不同层次评估模型精度。
统计检验功能中针对用户所选工况和变量数据集,提供如下的检验方法进行统计计算,计算表达式形式如下,其中:
表示原始值数组 表示模拟值数组 为原始值 为模拟值 为原始值的平均值 为模拟值的平均值 为数据长度 为防止分母为 0 的极小正数 ,表示残差平方和 ,表示原始值总平方和,用于衡量原始数据本身的波动程度
不同指标对数据分布和分母取值有不同要求。为避免误读统计结果,建议先确认数据是否存在零值、常值、负值或未归一化概率分布。
| 指标类型 | 典型方法 | 适用范围与边界情况 |
|---|---|---|
| 绝对误差类 | MAE、MSE、RMSE、MaxAE、欧式距离、切比雪夫距离、曼哈顿距离 | 对 |
| 相对误差类 | MRE、MAPE、MaxRE | 当 |
| 双侧归一化相对误差 | SMAPE、坎贝拉距离、布雷克蒂斯相异度 | 当 |
| 方差解释类 | UVE、绝对系数 | 当原始值无波动时,原始值总平方和 |
| 相似性类 | 余弦距离、相关系数距离 | 零向量或零方差数据不适用,需结合误差类指标共同判断 |
| 概率分布类 | JS 散度、KL 散度 | 要求输入为非负且归一化后的概率分布,不能直接用于未归一化的原始/模拟数值数组 |
平均相对误差(Mean Relative Error, MRE),原始值与模拟值之间相对误差绝对值的平均值,用于衡量预测的准确性。值越小则拟合效果越好。
当原始数据中存在值为 0,或接近于 0 的情况,结果会出现误差值较大偏离实际或异常值的情况,建议选择其他检验方法。
均方误差(Mean Squared Error, MSE),原始值与模拟值之间的平方差的平均值,值越小则拟合效果越好。
当数据量级较大时,平方操作可能导致误差值急剧增大,甚至超过计算机的数值精度范围,从而引发计算溢出或精度损失问题。建议选用对数据量级不敏感的其他检验方法。
平均绝对误差(Mean Absolute Error, MAE),原始值与模拟值之间的绝对差的平均值,用于直观反映误差的平均大小。值越小则拟合效果越好。
当数据中存在异常值或极端值时,MAE 可能会受到异常值的影响,导致结果过于敏感。建议选择其他对异常值不敏感的检验方法。
均方根误差(Root Mean Squared Error, RMSE),原始值与模拟值之间平方误差平均值的平方根,能够放大较大误差的影响。值越小则拟合效果越好。
平均绝对百分比误差(Mean Absolute Percentage Error, MAPE),是原始值与模拟值之间绝对百分比误差的平均值,能够直观反映预测误差的相对大小。值越小则拟合效果越好。
未解释方差(Unexplained Variance, UVE),是残差平方和(
)与总平方和( )的比值,模型未能解释的目标变量方差占总方差的比例。值越小则拟合效果越好。当原始值无波动时,
,该指标无法有效衡量模型解释方差的能力,应结合 MAE、RMSE 等误差指标判断。绝对系数(R2_score),是模型拟合优度指标,其值的范围为
,值越接近 1 则拟合效果越好。当原始值为常值或近似常值时,
接近 0, 可能失去参考意义。对称平均绝对百分比误差(Symmetric Mean Absolute Percentage Error, SMAPE),是一种改进的平均绝对百分比误差(MAPE),通过对称化处理避免了传统 MAPE 在接近零值时的偏差问题,能够更公平地评估预测误差。值范围为 0% 到 200%。值越小表示预测精度越高。
欧式距离(Euclidean Distance),是衡量空间中两点之间直线距离的度量方法,此处用于计算两组数据点之间的直线距离,作为一种误差统计方式。值越小表示预测精度越高。
切比雪夫距离(Chebyshev Distance)是衡量空间中两点在各坐标维度上最大差值的度量方法,此处用于计算两组数据点之间最大差值,作为一种误差统计方式。值越小表示预测精度越高。
曼哈顿距离(Manhattan Distance)是衡量空间中两点在各坐标维度上绝对差值和的距离度量方法,此处用于计算两组数据点之间绝对差值和,作为一种误差统计方式。值越小表示预测精度越高。
余弦距离(Cosine Distance)是衡量空间中两点方向夹角的距离度量方法,此处用于计算两组数据点之间方向夹角的余弦值来衡量它们的相似性,常用于高维数据场景。值越小表示预测精度越高。
当
或 为零向量时,分母为 0,余弦距离不适用。相关系数距离(Correlation Distance)是一种基于相关系数的误差度量方法,用于衡量观测值之间的相似性或差异性。它反映了观测值之间的线性关系强度和方向的差异。值越小表示预测精度越高。
当任一数组为常值数组时,标准差为 0,相关系数距离不适用。
布雷克蒂斯相异度(Bray-Curtis Dissimilarity)是一种用于衡量两组数据之间差异的非参数方法。值越小表示预测精度越高。
坎贝拉距离(Canberra Distance)是一种用于衡量两组数据之间差异的非参数方法。值越小表示预测精度越高。
JS 散度(Jensen-Shannon Divergence)是一种衡量两个概率分布之间差异的指标,值越小表示预测精度越高。计算前需要先将
和 转换为非负且和为 1 的概率分布 和 。其中,
是两组分布的均值分布, 是 对 的 Kullback-Leibler 散度:保真度指数(Fidelity Index)用于衡量两组数据的相近程度,与上述统计方法不同,保真度指数越大表示预测精度越高。
其中,
是归一化均方根误差, 是皮尔逊相关系数,当原始值范围
,或任一数组为常值数组时,保真度指数可能失真,应结合误差曲线和其他指标判断。最大相对误差(Maximum Relative Error, MaxRE)用于计算两组数据所有数据点的相对误差中的最大值。
最大绝对误差(Maximum Absolute Error,MaxAE)用于计算两组数据所有数据点的绝对误差中的最大值。
# 指标选择建议
不同统计检验方法关注的误差特征不同,建议根据分析目标组合使用。
建议:
- 关注绝对偏差时,优先查看平均绝对误差、最大绝对误差和均方根误差
- 关注不同量级变量之间的对比时,优先查看平均相对误差或平均绝对百分比误差
- 关注趋势一致性时,优先查看绝对系数和皮尔逊相关系数
- 关注模型整体可信度时,可结合保真度指数、曲线对比和云图对比共同判断
- 当真实值接近 0、数据波动很小或样本数量较少时,应避免只依赖单一统计指标得出结论