2026a

# 负二项分布

负二项分布

# 定义

当 r 参数为整数时，负二项分布概率密度函数为

其中。当不是整数时，将 pdf 定义中的二项式系数替换为等价表达式

# 背景

在其最简单的形式中（当 r 为整数时），负二项分布模拟在一系列独立、相同的试验中达到指定成功次数之前的失败次数 x。它的参数是单次试验的成功概率 p 和成功次数 r。当 r = 1 时，负二项分布的一个特殊情况是几何分布，它模拟第一次成功之前的失败次数。

更一般地说，r 可以采用非整数值。这种形式的负二项分布在重复试验方面没有解释，但与泊松分布一样，它在对计数数据建模时很有用。负二项分布比泊松分布更普遍，因为它的方差大于其均值，使其适用于不满足泊松分布假设的计数数据。在极限情况下，随着 r 增加到无穷大，负二项分布接近泊松分布。

# 参数

负二项分布参数

确定负二项分布的参数。

假设您正在收集有关繁忙高速公路上的汽车事故数量的数据，并且希望能够对每天的事故数量进行建模。因为这些是计数数据，并且因为汽车的数量非常多，并且任何特定汽车发生事故的可能性都很小，所以您可能会考虑使用泊松分布。然而，随着天气和交通量的变化，发生事故的概率可能每天都在变化，因此不满足泊松分布所需的假设。特别是，这类计数数据的方差有时会大大超过平均值。下面的数据显示了这种效果：大多数日子很少或没有事故，而几天有很多。

using TyPlot
using TyStatistics
accident = [2  3  4  2  3  1  12  8  14  31  23  1  10  7  0];
m = mean(accident)

m = 8.066666666666666

v = var(accident)

v = 79.35238095238095

负二项分布比 Poisson 更一般，通常适用于 Poisson 不适用的计数数据。函数 nbinfit 返回负二项分布参数的最大似然估计 (MLE) 和置信区间。观察拟合事故数据的结果。

phat,pci = nbinfit(accident)

phat = 1×2 Matrix{Float64}:
 1.00591  0.110873

pci = 2×2 Matrix{Float64}:
 0.215167  0.0171291
 1.79665   0.204618

在这种情况下，很难对各个参数进行物理解释。然而，估计的参数可以用于模型中的日常事故数量。例如，估计累积概率函数的图显示，虽然在给定的一天估计有 10% 的可能性没有事故，但也有大约 10% 的可能性会发生 20 起或更多事故。

plot(0:50,nbincdf(0:50,phat[1],phat[2]),".-");
xlabel("Accidents per Day")
ylabel("Cumulative Probability")

# 示例

计算和绘制负二项分布 PDF

使用参数 r 的四个不同值计算并绘制 pdf，所需的成功次数：0.1、1、3 和 6。在每种情况下，成功概率 p 为 0.5。

using TyPlot
using TyStatistics
x = 0:10;
plot(x,nbinpdf(x,.1,0.5),"s-", x,nbinpdf(x,1,0.5),"o-",x,nbinpdf(x,3,0.5),"d-",x,nbinpdf(x,6,0.5),"^-");
legend(["r = .1", "r = 1" ,"r = 3", "r = 6"])
xlabel("x")
ylabel("f(x|r,p)")

该图显示，负二项式分布可以呈现出多种形状，从非常偏斜到几乎对称，具体取决于的值。

# 另请参阅

NegativeBinomialDistribution