# 正态分布

# 概述


正态分布,有时称为高斯分布,是双参数曲线族。使用正态分布建模的通常理由是中心极限定理,该定理(粗略地)指出,随着样本大小趋向无穷,来自任何具有有限均值和方差的分布的独立样本总和会收敛为正态分布。

TyStatistics 提供了几种处理正态分布的方法。

  • 通过指定参数值来创建概率分布对象 NormalDistribution。然后使用对象函数来计算分布、生成随机数等。

  • 将分布特定的函数(normcdf、normpdf、norminv、normlike、normstat、normfit、normrnd)与指定的分布参数结合使用。分布特定的函数可以接受多个正态分布的参数。

  • 将一般分布函数(cdf、quantile、pdf、random)与指定的分布名称 ("Normal") 和参数结合使用。

# 参数

正态分布使用下列参数。

参数 说明 支持
mu (μ) 均值 −∞<μ<∞
sigma (σ) 标准差 σ≥0

标准正态分布具有零均值和单位标准差。如果 z 是标准正态,则 σz + µ 也是正态,其均值为 µ,标准差为 σ。相反,如果 x 是均值为 µ、标准差为 σ 的正态,则 z = (x – µ) / σ 为标准正态。

参数估计

最大似然估计 (MLE) 是最大化似然函数的参数估计。正态分布的 的最大似然估计量分别是

是样本 的样本均值。样本均值是参数 的无偏估计量。但是, 是参数 的有偏估计量,这意味着其预期值不等于参数。

最小方差无偏估计量 (MVUE) 通常用于估计正态分布的参数。MVUE 是参数的所有无偏估计量中方差最小的估计量。正态分布的参数 的 MVUE 分别是样本均值 和样本方差

要对数据进行正态分布拟合并求出参数估计值,请使用 normfit。

  • 对于未删失数据,normfit 计算无偏估计值。

  • 对于删失数据,normfit 计算最大似然估计值。

# 概率密度函数

正态概率密度函数 (pdf) 是

似然函数是被视为参数函数的 pdf。最大似然估计 (MLE) 是最大化 x 的固定值的似然函数的参数估计。

有关示例,请参阅计算并绘制正态分布 pdf

# 累积分布函数

正态累积分布函数 (cdf) 表示为

p 是参数为 的正态分布中的一个观测值落入 区间的概率。

标准正态累积分布函数 在功能上与误差函数 erf 相关。

其中

有关示例,请参阅绘制标准正态分布 cdf

# 示例

计算并绘制正态分布 pdf

计算参数 等于 0、 等于 1 的标准正态分布的 pdf。

using TyPlot
using TyStatistics
x = [-3:.1:3;];
y = normpdf.(x,0,1);

绘制 pdf。

plot(x,y)

绘制标准正态分布 cdf

创建一个标准正态分布对象。

using TyPlot
using TyStatistics
pd = Normal()
pd = Normal{Float64}(μ=0.0, σ=1.0)

指定 x 值并计算 cdf。

x = -3:.1:3;
p = cdf(pd,x);

绘制标准正态分布的 cdf。

plot(x,p)

比较 gamma 和正态分布 pdf

gamma 分布具有形状参数 和尺度参数 。如果 的值较大,gamma 分布非常接近均值 、方差 的正态分布。

计算参数 的 gamma 分布的 pdf。

using TyPlot
using TyStatistics
a = 100;
b = 5;
x = 250:750;
y_gam = gampdf.(x,a,b);

为了进行比较,计算基于 gamma 分布逼近的正态分布的均值、标准差和 pdf。

mu = a*b
mu = 500
sigma = sqrt(a*b^2)
sigma = 50.0
y_norm = normpdf.(x,mu,sigma);

将 gamma 分布和正态分布的 pdf 绘制在同一图窗上。

plot(x,y_gam,"-",x,y_norm,"-.")
title("Gamma and Normal pdfs")
xlabel("Observation")
ylabel("Probability Density")
legend(["Gamma Distribution","Normal Distribution"])

正态分布的 pdf 逼近 gamma 分布的 pdf。

正态分布和对数正态分布之间的关系

如果 X 遵循具有参数 µ 的对数正态分布,则 log(X) 遵循具有均值 µ 和标准差 的正态分布。使用分布对象检查正态分布和对数正态分布之间的关系。

通过指定参数值创建对数正态分布对象。

using TyMath
using TyStatistics
pd = LogNormal(5,2)
pd = LogNormal{Float64}(μ=5.0, σ=2.0)

计算对数正态分布的均值。

mean(pd)
ans = 1096.6331584284585

对数正态分布的均值不等于 mu 参数。对数值的均值等于 mu。通过生成随机数来确认这种关系。

从对数正态分布中生成随机数,并计算其对数值。

rng = MT19937ar(5489)
x =  lognrnd(rng,5,2,10000,1);
logx = log.(x);

计算对数值的均值。

m = mean(logx)
m = 5.003318862423448

x 的对数的均值接近 x 的 mu 参数,因为 x 具有对数正态分布。

用正态分布拟合构造 logx 的直方图。

histfit(logx)

该图显示 x 的对数值呈正态分布。

比较 Student t 和正态分布 pdf

Student t 分布是依赖于单参数 ν(自由度)的曲线族。随着自由度 ν 趋向无穷,t 分布逼近标准正态分布。

计算参数 nu = 5 的 Student t 分布和参数 nu = 15 的 Student t 分布的 pdf。

using TyPlot
using TyStatistics
x = [-5:0.1:5;];
y1 = tpdf(x,5);
y2 = tpdf(x,15);

计算标准正态分布的 pdf。

z = normpdf.(x,0,1);

将 Student t pdf 和标准正态 pdf 绘制在同一图窗上。

plot(x,y1,"-.",x,y2,"--",x,z,"-")
legend(["Student t Distribution with "*raw"$\nu$"*"=5", "Student t Distribution with  "*raw"$\nu$"*"=15","Standard Normal Distribution"];loc="best")
xlabel("Observation")
ylabel("Probability Density")
title("Student t and Standard Normal pdfs")

标准正态 pdf 的尾部比 Student t pdf 短。

# 相关分布

  • Binomial Distribution - 二项分布对 n 次重复试验的成功总数和成功概率 p 进行建模。随着 n 的增长,二项分布可以用 µ = np 和 σ2 = np(1–p) 的正态分布来逼近。

  • Birnbaum-Saunders Distribution - 如果 x 具有参数为 β 和 γ 的 Birnbaum-Saunders 分布,则

具有标准正态分布。

  • Chi-Square Distribution - 卡方分布是平方和、独立、标准正态随机变量的分布。如果一组(包含 n 个)观测值呈正态分布,方差为 、样本方差为 ,则 具有自由度为 的卡方分布。normfit 函数使用此关系来计算正态参数 的估计的置信区间。

  • Extreme Value Distribution - 极值分布适用于对尾部呈指数急剧衰减的分布(如正态分布)中的最小值或最大值建模。

  • Gamma Distribution - gamma 分布具有形状参数 和尺度参数 。如果 的值较大,gamma 分布非常接近均值 、方差 的正态分布。gamma 分布仅对正实数才有密度。请参阅比较 gamma 和正态分布 pdf

  • Half-Normal Distribution - 半正态分布是折叠正态分布和截断正态分布的特例。如果随机变量 Z 具有标准正态分布,则 为具有参数 的半正态分布。

  • Lognormal Distribution - 如果 X 遵循具有参数 µ 的对数正态分布,则 遵循具有均值 µ 和标准差 的正态分布。请参阅正态分布和对数正态分布之间的关系。

  • 泊松分布 - 泊松分布是接受非负整数值的单参数离散分布。参数 既是分布的均值,也是分布的方差。随着 的增大,泊松分布可以用 µ 的正态分布来逼近。

  • Rayleigh Distribution - 瑞利分布是 Weibull 分布的特例,应用于通信理论中。如果粒子在 方向上的分量速度是两个独立的正态随机变量(均值为零并具有方差齐性),则粒子在每单位时间行进的距离遵循瑞利分布。

  • Stable Distribution - 正态分布是稳定分布的特例。第一个形状参数 α = 2 的稳定分布对应于正态分布。

  • Student t Distribution - Student t 分布是一个依赖单参数 ν(自由度)的曲线族。随着自由度 ν 趋向无穷,t 分布逼近标准正态分布。请参阅比较 Student t 和正态分布 pdf。 如果 是大小为 的随机样本,来自均值为 的正态分布,则统计量

(其中是样本均值, 是样本标准差)具有包含 n–1 个自由度的 Student t 分布。

# 另请参阅

NormalDistribution | normcdf | normpdf | norminv | normlike | normstat | normfit | normrnd | erf