2026a

# 负二项分布


负二项分布

# 定义

当 r 参数为整数时,负二项分布概率密度函数为

其中 。 当 不是整数时,将 pdf 定义中的二项式系数替换为等价表达式

# 背景

在其最简单的形式中(当 r 为整数时),负二项分布模拟在一系列独立、相同的试验中达到指定成功次数之前的失败次数 x。它的参数是单次试验的成功概率 p 和成功次数 r。当 r = 1 时,负二项分布的一个特殊情况是几何分布,它模拟第一次成功之前的失败次数。

更一般地说,r 可以采用非整数值。这种形式的负二项分布在重复试验方面没有解释,但与泊松分布一样,它在对计数数据建模时很有用。负二项分布比泊松分布更普遍,因为它的方差大于其均值,使其适用于不满足泊松分布假设的计数数据。在极限情况下,随着 r 增加到无穷大,负二项分布接近泊松分布。

# 参数

负二项分布参数

确定负二项分布的参数。

假设您正在收集有关繁忙高速公路上的汽车事故数量的数据,并且希望能够对每天的事故数量进行建模。 因为这些是计数数据,并且因为汽车的数量非常多,并且任何特定汽车发生事故的可能性都很小,所以您可能会考虑使用泊松分布。 然而,随着天气和交通量的变化,发生事故的概率可能每天都在变化,因此不满足泊松分布所需的假设。 特别是,这类计数数据的方差有时会大大超过平均值。 下面的数据显示了这种效果:大多数日子很少或没有事故,而几天有很多。

using TyPlot
using TyStatistics
accident = [2  3  4  2  3  1  12  8  14  31  23  1  10  7  0];
m = mean(accident)
m = 8.066666666666666
v = var(accident)
v = 79.35238095238095

负二项分布比 Poisson 更一般,通常适用于 Poisson 不适用的计数数据。 函数 nbinfit 返回负二项分布参数的最大似然估计 (MLE) 和置信区间。 观察拟合事故数据的结果。

phat,pci = nbinfit(accident)
phat = 1×2 Matrix{Float64}:
 1.00591  0.110873

pci = 2×2 Matrix{Float64}:
 0.215167  0.0171291
 1.79665   0.204618

在这种情况下,很难对各个参数进行物理解释。 然而,估计的参数可以用于模型中的日常事故数量。 例如,估计累积概率函数的图显示,虽然在给定的一天估计有 10% 的可能性没有事故,但也有大约 10% 的可能性会发生 20 起或更多事故。

plot(0:50,nbincdf(0:50,phat[1],phat[2]),".-");
xlabel("Accidents per Day")
ylabel("Cumulative Probability")

# 示例

计算和绘制负二项分布 PDF

使用参数 r 的四个不同值计算并绘制 pdf,所需的成功次数:0.1、1、3 和 6。在每种情况下,成功概率 p 为 0.5。

using TyPlot
using TyStatistics
x = 0:10;
plot(x,nbinpdf(x,.1,0.5),"s-", x,nbinpdf(x,1,0.5),"o-",x,nbinpdf(x,3,0.5),"d-",x,nbinpdf(x,6,0.5),"^-");
legend(["r = .1", "r = 1" ,"r = 3", "r = 6"])
xlabel("x")
ylabel("f(x|r,p)")

该图显示,负二项式分布可以呈现出多种形状,从非常偏斜到几乎对称,具体取决于 的值。

# 另请参阅

NegativeBinomialDistribution