# 负二项分布
负二项分布
# 定义
当 r 参数为整数时,负二项分布概率密度函数为
其中
# 背景
在其最简单的形式中(当 r 为整数时),负二项分布模拟在一系列独立、相同的试验中达到指定成功次数之前的失败次数 x。它的参数是单次试验的成功概率 p 和成功次数 r。当 r = 1 时,负二项分布的一个特殊情况是几何分布,它模拟第一次成功之前的失败次数。
更一般地说,r 可以采用非整数值。这种形式的负二项分布在重复试验方面没有解释,但与泊松分布一样,它在对计数数据建模时很有用。负二项分布比泊松分布更普遍,因为它的方差大于其均值,使其适用于不满足泊松分布假设的计数数据。在极限情况下,随着 r 增加到无穷大,负二项分布接近泊松分布。
# 参数
负二项分布参数
确定负二项分布的参数。
假设您正在收集有关繁忙高速公路上的汽车事故数量的数据,并且希望能够对每天的事故数量进行建模。 因为这些是计数数据,并且因为汽车的数量非常多,并且任何特定汽车发生事故的可能性都很小,所以您可能会考虑使用泊松分布。 然而,随着天气和交通量的变化,发生事故的概率可能每天都在变化,因此不满足泊松分布所需的假设。 特别是,这类计数数据的方差有时会大大超过平均值。 下面的数据显示了这种效果:大多数日子很少或没有事故,而几天有很多。
using TyPlot
using TyStatistics
accident = [2 3 4 2 3 1 12 8 14 31 23 1 10 7 0];
m = mean(accident)
m = 8.066666666666666
v = var(accident)
v = 79.35238095238095
负二项分布比 Poisson 更一般,通常适用于 Poisson 不适用的计数数据。 函数 nbinfit 返回负二项分布参数的最大似然估计 (MLE) 和置信区间。 观察拟合事故数据的结果。
phat,pci = nbinfit(accident)
phat = 1×2 Matrix{Float64}:
1.00591 0.110873
pci = 2×2 Matrix{Float64}:
0.215167 0.0171291
1.79665 0.204618
在这种情况下,很难对各个参数进行物理解释。 然而,估计的参数可以用于模型中的日常事故数量。 例如,估计累积概率函数的图显示,虽然在给定的一天估计有 10% 的可能性没有事故,但也有大约 10% 的可能性会发生 20 起或更多事故。
plot(0:50,nbincdf(0:50,phat[1],phat[2]),".-");
xlabel("Accidents per Day")
ylabel("Cumulative Probability")
# 示例
计算和绘制负二项分布 PDF
使用参数 r 的四个不同值计算并绘制 pdf,所需的成功次数:0.1、1、3 和 6。在每种情况下,成功概率 p 为 0.5。
using TyPlot
using TyStatistics
x = 0:10;
plot(x,nbinpdf(x,.1,0.5),"s-", x,nbinpdf(x,1,0.5),"o-",x,nbinpdf(x,3,0.5),"d-",x,nbinpdf(x,6,0.5),"^-");
legend(["r = .1", "r = 1" ,"r = 3", "r = 6"])
xlabel("x")
ylabel("f(x|r,p)")
该图显示,负二项式分布可以呈现出多种形状,从非常偏斜到几乎对称,具体取决于