# mle
最大似然估计
函数库: TyStatistics
# 语法
phat, pci = mle(data; Name=Value)
# 说明
phat, pci = mle(data) 使用样本数据 data 返回正态分布参数的最大似然估计 (MLE)。
phat, pci = mle(data; Name=Value) 使用一个或多个关键字参数指定选项。
例如,您可以使用以下关键字参数之一指定分布类型:dist、pdf、logpdf 或 nloglf。
要计算内置分布的 MLE,请使用 dist 指定分布类型。 例如,dist="Beta" 指定计算 beta 分布的 MLE。
要计算自定义分布的 MLE,请使用 pdf、logpdf 或 nloglf 定义分布,并使用 start 指定初始参数值。示例
# 示例
查找用于内置分发的 MLE
查找您使用 dist 参数指定的内置分布的 MLE。
加载示例数据。
using TyStatistics
using TyPlot
pkg_dir = pkgdir(TyStatistics)
source_path = pkg_dir * "/examples/ProbabilityDistributions/mle/mle_data.jl"
include(source_path)
变量 MPG 包含不同型号汽车的每加仑英里数。
绘制 MPG 数据的直方图。
histogram(MPG)
分布有些右偏。 对称分布(例如正态分布)可能不太合适。
估计 MPG 数据的 Burr XII 型分布的参数。
phat, = mle(MPG,dist="burr")
phat = 3-element Vector{Float64}:
34.644727323245704
3.7897765717128378
3.572233556504941
尺度参数 α 的 MLE 为 34.6447。 Burr XII 型分布的两个形状参数 c 和 k 的估计值分别为 3.7898 和 3.5722。
计算 MLE 和置信区间
从二项式分布生成 100 个随机观测值,试验次数 n = 20,成功概率 p = 0.75。
using TyStatistics
using TyMath
rng = MT19937ar(5489);
data = binornd(rng,20,0.75,100,1);
使用模拟样本数据估计成功概率和 99% 置信区间。 您必须指定二项式分布的试验次数 (NTrials)。
phat,pci = mle(data;dist="binomial",ntrials=20, alpha=0.01)
phat = 0.7615
pci = 1×2 Matrix{Float64}:
0.736094 0.785647
成功概率的估计值为 0.7615,99% 置信区间的下限和上限分别为 0.7361 和 0.7856。 该区间涵盖了用于模拟数据的真实值。
拟合自定义概率密度函数 (pdf)
从自由度为 8、非中心参数为 3 的非中心卡方分布生成大小为 1000 的样本数据。
using TyStatistics
using TyMath
rng = MT19937ar(5489);
x = ncx2rnd(rng,8,3,1000,1);
根据样本数据估计非中心卡方分布的参数。 dist 参数不支持非中心卡方分布。 因此,您需要使用 pdf 参数和 ncx2pdf 函数定义自定义非中心卡方 pdf。 您还必须为自定义分配指定初始参数值(start 参数)。
phat,pci = mle(x,pdf=(x,v,d)->ncx2pdf(x,v,d),start=[1,1])
phat = 2-element Vector{Float64}:
8.105197954393663
2.669336108071173
pci = 2×2 Matrix{Float64}:
7.11205 1.6025
9.09834 3.73617
自由度的估计值为 8.1052,非中心参数为 2.6693。 自由度的 95% 置信区间为 (7.1120,9.0983),非中心参数的区间为 (1.6025,3.7362)。 置信区间分别包括真实参数值 8 和 3。
拟合自定义对数概率密度函数 (pdf)
加载示例数据
using TyStatistics
pkg_dir = pkgdir(TyStatistics)
source_path = pkg_dir * "/examples/ProbabilityDistributions/mle/mle_data.jl"
include(source_path)
该数据包括 ReadmissionTime,其中包含 100 名患者的再入院时间。 该数据是模拟的。
使用尺度参数 lambda 和形状参数 theta 定义威布尔分布的自定义对数 pdf。
custlogpdf = (data,lambda,theta)->log(theta) - theta*log(lambda) .+ (theta-1)*log.(data) - (data/lambda).^theta
估计自定义分布的参数并指定其初始参数值(start参数)。
phat, = mle(ReadmissionTime,logpdf=custlogpdf,start=[1,0.75])
phat = 2-element Vector{Float64}:
7.572737621787827
1.454042742550799
自定义分布的尺度和形状参数分别为 7.5727 和 1.4540。
拟合自定义负对数似然函数
加载示例数据
using TyStatistics
pkg_dir = pkgdir(TyStatistics)
source_path = pkg_dir * "/examples/ProbabilityDistributions/mle/mle_data.jl"
include(source_path)
该数据包括 ReadmissionTime,其中包含 100 名患者的再入院时间。 该数据是模拟的。
使用参数 lambda 为泊松分布定义自定义负对数似然函数,其中 1/lambda 是分布的平均值。 您必须定义该函数以接受审查信息的逻辑向量和数据频率的整数向量,即使您不在自定义函数中使用这些值。
custnloglf =(lambda, data, cens, freq) -> -length(data) .* log.(lambda) .+ sum(t -> ifelse(isnan(t), 0, t), lambda .* data)
估计自定义分布的参数并指定其初始参数值(start 参数)。
phat, = mle(ReadmissionTime; nloglf=custnloglf, start=0.05)
phat = 0.14619873046875037
拟合已知参数的分布
从自由度为 10、非中心参数为 5 的非中心卡方分布生成大小为 1000 的样本数据。
using TyStatistics
using TyMath
rng = MT19937ar(5489);
x = ncx2rnd(rng,10,5,1000,1);
假设非中心参数固定为值 5。根据样本数据估计非中心卡方分布的自由度。 为此,请使用 pdf 参数定义自定义非中心卡方 pdf。
phat, pci, = mle(x; pdf=(x, v) -> ncx2pdf.(x, v, 5), start=1)
phat = 9.93073501586916
pci = 2×1 Matrix{Float64}:
9.562591099341821
10.2988789323965
非中心参数的估计值为 9.9307,95% 置信区间的下限和上限分别为 9.5626 和 10.2989。 置信区间包括真实参数值 10。
具有附加参数的拟合分布
在卡方分布中添加尺度参数以适应数据的尺度,并对分布进行拟合。
从自由度为 5 的卡方分布生成大小为 1000 的样本数据,并将数据缩放 100 倍。
using TyStatistics
using TyMath
rng = MT19937ar(5489);
x = 100*chi2rnd(rng,5,1000,1);
估计自由度和比例因子。 为此,请使用 pdf 名称-值参数定义自定义卡方概率密度函数。 对于按 s 缩放的数据,密度函数需要 1/s 因子。
phat, pci = mle(x; pdf=(x, v, s) -> chi2pdf.(x / s, v) / s, start=[1, 200])
phat = 2-element Vector{Float64}:
5.107948681232244
99.16805004654401
pci = 2×2 Matrix{Float64}:
4.68618 90.1215
5.52971 108.215
自由度的估计值为 5.1079,尺度为 99.1681。 自由度的 95% 置信区间为 (4.6862,5.5279),尺度参数的区间为 (90.1215,108.2146)。 置信区间分别包括真实参数值 5 和 100。
使用自定义分布拟合右删失数据
加载示例数据
using TyStatistics
pkg_dir = pkgdir(TyStatistics)
source_path = pkg_dir * "/examples/ProbabilityDistributions/mle/mle_data.jl"
include(source_path)
该数据包括 ReadmissionTime,其中包含 100 名患者的再入院时间。 列向量 Censored 包含每个患者的审查信息,其中 1 表示右删失观察,0 表示观察到准确的再入院时间。 该数据是模拟的。
使用参数 lambda 为指数分布定义自定义概率密度函数 (pdf) 和累积分布函数 (cdf),其中 1/lambda 是分布的平均值。 为了使分布适合审查数据集,您必须将 pdf 和 cdf 传递给 mle 函数。
custpdf = (data, lambda) -> lambda .* exp.(-lambda .* data)
custcdf = (data, lambda) -> 1 .- exp.(-lambda .* data)
估计删失样本数据的自定义分布的参数 lambda。 指定自定义分发的初始参数值(start参数)。
phat, = mle(ReadmissionTime; pdf=custpdf, cdf=custcdf, start=0.05, cens=Censored)
phat = 0.10964904785156272
寻找具有有限支持的 MLE 进行分发
从具有有限支持的分布生成样本,并找到具有迭代估计过程的自定义选项的 MLE。
对于具有零概率密度的区域的分布,mle 可能会尝试一些密度为零的参数,导致函数无法找到 MLE。 为了避免此问题,您可以关闭检查无效函数值的选项,并在调用 mle 函数时指定参数范围。
根据尺度参数 1 和形状参数 1 的威布尔分布生成大小为 1000 的样本数据。通过添加 10 来移动样本。
using TyStatistics
using TyMath
using TyPlot
rng = MT19937ar(5489);
data = wblrnd(rng,1,1,1000,1) .+ 10;
histogram(data,normalization="pdf")
直方图显示没有小于 10 的样本,表明分布在小于 10 的区域中概率为零。此分布是三参数威布尔分布,其中包括第三个位置参数。
定义三参数威布尔分布的概率密度函数 (pdf)。
custompdf = (x,a,b,c)-> wblpdf(x.-c,a,b);
使用 mle 函数查找 MLE。 指定 Options 参数以关闭检查无效函数值的选项。 此外,还可以使用 lowerbound 和 upperbound 参数指定参数范围。 尺度和形状参数必须为正,位置参数必须小于样本数据的最小值。
params, = mle(data,pdf=custompdf,start=[5 5 5], Options=mleoptions(;FunValCheck="off"), lowerbound=[0 0 -Inf],upperbound=[Inf Inf minimum(data)])
params = 3-element Vector{Float64}:
1.025783607751431
1.061777643023313
10.000404683109096
mle 函数可找到三个参数的准确估计值。
# 输入参数
data - 样本数据和审查信息
向量 | 列数为2的矩阵
样本数据和审查信息,指定为样本数据向量或样本数据和审查信息的两列矩阵。
您可以使用 data 参数或 cens 参数指定示例数据的审查信息。 如果数据是两列矩阵,mle 会忽略审查参数值。
根据数据中观测值的审查类型,将数据指定为向量或两列矩阵。
完全观察到的数据 - 将数据指定为样本数据的向量。
包含完全观察、左审查或右审查观察的数据 - 将数据指定为样本数据向量,并将 cens 参数指定为包含每个观察的审查信息的向量。 删失向量可以包含 0、–1 和 1,分别指完全观察、左删失和右删失观测。
包含区间删失观测值的数据 - 将数据指定为样本数据和审查信息的两列矩阵。 每行数据指定每个观察的可能生存或失败时间的范围,并且可以具有以下值之一:
[t,t] - 在 t 处完全观察到
[-Inf,t] - 在 t 处左截尾
[t,Inf] - 在 t 处右删失
[t1,t2] - [t1,t2] 之间的间隔删失,其中 t1 < t2
有关支持审查观察的内置分布列表,请参阅 cens。
mle 忽略数据中的 NaN 值。 此外,审查向量 (cens) 或频率向量 (freq) 中的任何 NaN 值都会导致 mle 忽略数据中的相应行。
数据类型: Integer
# 关键字参数
将可选参数对指定为 Name1=Value1,...,NameN=ValueN,其中 Name 是参数名称,Value 是相应的值。 关键字参数必须出现在其他参数之后,但参数对的顺序并不重要。
示例: cens=Cens,alpha=0.01,Options=Opt 指示 mle 估计由数组 Cens 指定的删失数据分布的参数,计算参数估计的 99% 置信限,并使用 由结构体 Opt 指定的算法控制参数。
指定内置分布的选项:
dist - 概率分布类型
"normal"(默认)| 分布类型的字符向量或字符串标量
用于估计参数的分布类型,指定为此表中的值之一。
| 概率分布值 | 概率分布类型 | 第一个参数 | 第二个参数 | 第三个参数 | 第四个参数 |
|---|---|---|---|---|---|
| "Bernoulli" | Bernoulli Distribution | p:每次试验成功的概率 | N/A | N/A | N/A |
| "Beta" | Beta 分布 | α:第一个形状参数 | β:第二个形状参数 | N/A | N/A |
| "Binomial" | Binomial 分布 | n:试验次数 | p:每次试验成功的概率 | N/A | N/A |
| "BirnbaumSaunders" | BirnbaumSaunders 分布 | β:尺度参数 | γ:形状参数 | N/A | N/A |
| "Burr" | Burr Distribution | k:尺度参数 | c:第一个形状参数 | α:第二个形状参数 | N/A |
| "DiscreteUniform" or "unid" | 均匀分布(离散) | n:最大可观测值 | N/A | N/A | N/A |
| "Exponential" | 指数分布 | θ:平均值 | N/A | N/A | N/A |
| "ExtremeValue" or "ev" | 极值分布 | μ:位置参数 | σ:尺度参数 | N/A | N/A |
| "Gamma" | Gamma 分布 | α:形状参数 | θ:尺度参数 | N/A | N/A |
| "GeneralizedExtremeValue" or "gev" | 广义极值分布 | μ:位置参数 | σ:尺度参数 | ξ:形状参数 | |
| "GeneralizedPareto" or "gp" | 广义帕累托分布 | μ:阈值参数 | σ:尺度参数 | ξ:形状参数 | N/A |
| "Geometric" | 几何分布 | p:成功概率 | N/A | N/A | N/A |
| "HalfNormal" or "hn" | 半正态分布 | σ:尺度参数 | N/A | N/A | N/A |
| "InverseGaussian" | 逆高斯分布 | μ:尺度参数 | λ:形状参数 | N/A | N/A |
| "Logistic" | 逻辑分布 | μ:均值 | θ:尺度参数 | N/A | N/A |
| "Loglogistic" | 对数逻辑分布 | μ:对数值的均值 | σ:对数值的尺度参数 | N/A | N/A |
| "LogNormal" | 对数正态分布 | μ:对数值的均值 | σ:对数值的标准差 | N/A | N/A |
| "Nakagami" | Nakagami 分布 | μ:形状参数 | ω:尺度参数 | N/A | N/A |
| "NegativeBinomial" or "nbin" | 负二项分布 | r:成功次数 | p:单次试验成功概率 | N/A | N/A |
| "Normal" | 正态分布 | μ:均值 | σ:标准差 | N/A | N/A |
| "Poisson" | 泊松分布 | λ:均值 | N/A | N/A | N/A |
| "Rayleigh" | 瑞利分布 | σ:尺度参数 | N/A | N/A | N/A |
| "Rician" | 莱斯分布 | ν:非中心参数 | σ:尺度参数 | N/A | N/A |
| "Stable" | 稳定分布 | α:第一个形状参数 | β:第二个形状参数 | γ:尺度参数 | δ:位置参数 |
| "tLocationScale" | t Location-Scale Distribution | μ:位置参数 | μ:均值 | σ:尺度参数 | ν:形状参数 |
| "Uniform" | 均匀分布(连续) | a:最小值 | b:最大值 | N/A | N/A |
| "Weibull" or "wbl" | Weibull 分布 | α:尺度参数 | θ:形状参数 | N/A | N/A |
mle 不估计这些分布参数:
二项式分布的试验次数。 使用 ntrials 参数指定参数。
半正态分布的位置参数。 使用 mu 参数指定参数。
广义帕累托分布的位置参数。 使用 theta 参数指定参数。
如果样本数据被截断或包含左删失或区间删失观测值,则必须为 Burr 分布和稳定分布指定 start 参数。
示例: dist="Rician"
ntrials - 二项式分布的试验次数
标量 | 向量
二项式分布的相应数据元素的试验次数,指定为标量或与数据具有相同行数的向量。
当 dist 为 "Binomial"(二项分布)时,需要此参数。
示例: ntrials=10
数据类型: Integer
theta - 广义帕累托分布的位置(阈值)参数
标量值
mu - 半正态分布的位置参数
标量值
# 定义自定义分布的选项
pdf — 自定义概率密度函数
函数
自定义概率分布函数 (pdf),指定为函数句柄。
示例: pdf = newpdf
数据类型: Function
cdf — 自定义累积分布函数
函数
自定义累积分布函数 (cdf),指定为函数句柄。
要计算删失或截断观测值的 MLE,您必须定义 cdf 和 pdf。 对于完全观察和未截断的观察,mle 不使用 cdf。 您可以使用 data 或 cens 指定审查信息,并使用 truncation 指定截断边界。
示例: cdf = newcdf
数据类型: Function
logpdf - 自定义对数概率密度函数
函数
自定义对数概率密度函数,指定为函数句柄。
示例: logpdf = customlogpdf
数据类型: Function
logsf — 自定义对数生存函数
函数
自定义日志生存函数,指定为函数句柄。
要计算删失或截断观测值的 MLE,您必须定义 logf 和 logpdf。 对于完全观察和未截断的观察,mle 不使用 logsf。 您可以使用 data 或 cens 指定审查信息,并使用 truncation 指定截断边界。
示例: logsf = logsurvival
数据类型: Function
nloglf — 自定义负对数似然函数
函数
自定义负对数似然函数,指定为函数句柄。
自定义函数按照表中列出的顺序接受以下输入参数。
| 自定义函数的输入参数 | 描述 |
|---|---|
| params | 分布参数值的向量。 mle 根据 start 中的元素数量检测参数数量。 |
| data | 样本数据。 data 是样本数据的向量或样本数据和审查信息的两列矩阵。 |
| cens | 审查信息的逻辑向量。 即使您不使用 cens 参数,nloglf 也必须接受 cens。 在这种情况下,您可以编写nloglf来忽略cens。 |
| freq | 数据频率的整数向量。 即使您不使用 freq 参数,nloglf 也必须接受freq。 在这种情况下,您可以编写 nloglf 来忽略freq。 |
nloglf 返回标量负对数似然值,以及可选的负对数似然梯度向量(请参阅 Options 参数中的 GradObj 字段)。
示例: nloglf = negloglik
数据类型: Function
# 其他选项
cens — 审查数据指标
0 向量(默认)| 由 0、–1 和 1 组成的向量
删失数据的指示器,指定为由 0、–1 和 1 组成的向量,分别表示完全观察、左删失和右删失观察。 审查值的每个元素表示 data 中相应观察的审查状态。 删失值必须与数据具有相同的大小。 默认值是 0 向量,表示所有观测值均已完全观测到。
您不能使用此参数指定区间删失观测值。 如果样本数据包含区间删失观测值,请使用两列矩阵指定数据。 如果数据是两列矩阵,mle 会忽略审查值。
mle 支持对以下内置分布和自定义分布进行审查。
| dist值 | 分布类型 |
|---|---|
| "BirnbaumSaunders" | BirnbaumSaunders |
| "Burr" | Burr |
| "Exponential" | Exponential |
| "ExtremeValue" or "ev" | ExtremeValue |
| "Gamma" | Gamma |
| "InverseGaussian" | InverseGaussian |
| "Logistic" | Logistic |
| "LogLogistic" | LogLogistic |
| "LogNormal" | LogNormal |
| "Nakagami" | Nakagami |
| "Normal" | Normal |
| "Rician" | Rician |
| "tLocationScale" | tLocationScale |
| "Weibull" or "wbl" | Weibull |
对于自定义分布,您必须使用 pdf 和 cdf、logpdf 和 logsf 或 nloglf 定义分布。
mle 忽略审查向量中的任何 NaN 值。 此外,数据或频率向量 (freq) 中的任何 NaN 值都会导致 mle 忽略审查向量中的相应值。
示例: cens=censored ,其中 censored 是包含审查信息的向量。
数据类型: Number
trucation - 截断边界
二元素向量
截断边界,指定为两个元素的向量。
mle 支持以下内置分布和自定义分布的截断观察值。
| dist值 | 分布类型 |
|---|---|
| "Beta" | Beta |
| "BirnbaumSaunders" | BirnbaumSaunders |
| "Burr" | Burr |
| "Exponential" | Exponential |
| "ExtremeValue" or "ev" | ExtremeValue |
| "Gamma" | Gamma |
| "GeneralizedExtremeValue" or "gev" | GeneralizedExtremeValue |
| "GeneralizedPareto" or "gp" | GeneralizedPareto |
| "HalfNormal" or "hn" | HalfNormal |
| "InverseGaussian" | InverseGaussian |
| "Logistic" | Logistic |
| "LogLogistic" | LogLogistic |
| "LogNormal" | LogNormal |
| "Nakagami" | Nakagami |
| "Normal" | Normal |
| "Poisson" | Poisson |
| "Rayleigh" | Rayleigh |
| "Rician" | Rician |
| "Stable" | Stable |
| "tLocationScale" | tLocationScale |
| "Weibull" or "wbl" | Weibull |
对于自定义分布,您必须使用 pdf 和 cdf、logpdf 和 logsf 或 nloglf 定义分布。
示例: truncation=[0,10]
数据类型: Number
freq - 观察频率
1 向量(默认)| 非负整数计数向量
alpha - 显著性水平
0.05(默认)| (0,1) 中的标量值
参数估计置信区间 pci 的显着性水平,指定为 (0,1) 范围内的标量。 pci 的置信度为 100(1–alpha)%。 95% 置信度的默认值为 0.05。
示例: alpha=0.01,将置信水平指定为 99%。
数据类型: Number
Options - 迭代算法的选项
mleoptions()(默认)| 结构体
迭代算法的选项,指定为 mleoptions 返回的结构体。
使用此参数来控制最大似然优化的细节。 该论点在以下情况下有效:
样本数据被截断。
样本数据包括左删失或区间删失观测值。
拟合自定义分布。
mle 函数解释以下 mleoptions 选项以进行优化。
| 选项名称 | 描述 | 默认值 |
|---|---|---|
| GradObj | 指示 fmincon 是否可以期望 nloglf 自定义函数返回负对数似然的梯度向量作为第二个输出的标志,指定为 "on" 或 "off"。 使用 fminsearch 时,mle 会忽略 GradObj。 您可以使用 OptimFun 参数指定优化函数。 默认优化函数是fminsearch。 | "off" |
| DerivStep | 相对差,指定为与 start 大小相同的向量,并在 mle 使用 fmincon 且 GradObj 为 "off" 时用于有限差分导数近似。 使用 fminsearch 时,mle 会忽略 DerivStep。 | eps()^(1/3) |
| FunValCheck | 指示 mle 是否检查分布函数返回的值的有效性的标志,指定为 "on" 或 "off"。 如果您在定义函数时未进行适当的错误检查,则起点选择不当可能会导致分布函数返回 NaN、无限值或超出范围的值。 | "on" |
| TolBnd | 当 mle 使用 fmincon 时下限和上限的偏移量,指定为正标量。 MLE 将下限和上限视为严格的不等式或开放边界。 使用 fmincon 时,mle 通过包含 TolBnd 为下限和上限指定的偏移量来近似边界。 | 1e-6 |
| TolFun | 函数值的终止容差,指定为正标量。 | 1e-6 |
| TolX | 参数的终止容差,指定为正标量。 | 1e-6 |
| MaxFunEvals | 允许的最大函数计算次数,指定为正整数。 | 400 |
| MaxIter | 允许的最大迭代次数,指定为正整数。 | 200 |
| Display | 显示级别,指定为 "off"、"final" 或 "iter"。 | "off" |
有关更多详细信息,请参阅 fminsearch 和 fmincon (Optimization Toolbox) 的 options 输入参数。
示例: Options=mleoptions(; FunValCheck="off")
数据类型: 结构体
start - 初始参数值
标量值 | 向量
lowerbound - 分布参数的下界
向量
分布参数的下限,指定为与 start 长度相同的向量。
该参数在以下情况下有效:
样本数据被截断。
样本数据包括左删失或区间删失观测值。
拟合自定义分布。
示例: lowerbound=0
数据类型: Number
upperbound - 分布参数的上界
向量
分布参数的下限,指定为与 start 长度相同的向量。
该参数在以下情况下有效:
样本数据被截断。
样本数据包括左删失或区间删失观测值。
拟合自定义分布。
示例: upperbound=1
数据类型: Number
OptimFun — 优化函数
"fminsearch" (默认) | "fmincon"
mle 用于最大化可能性的优化函数,指定为 "fminsearch" 或 "fmincon"。
样本数据被截断。
样本数据包括左删失或区间删失观测值。
拟合自定义分布。
示例: OptimFun="fmincon"
# 输出参数
phat - 参数估计
向量
参数估计值,以向量形式返回。 有关内置分布的参数估计的描述,请参阅 dist。
pci - 参数估计的置信区间
2×k 矩阵
参数估计的置信区间,以 2×k 矩阵形式返回,其中 k 是 mle 估计的参数数量。 pci 的第一行和第二行分别显示置信下限和上限。
您可以使用 alpha 参数指定置信区间的显着性水平。
# 更多相关
审查类型
mle 支持左删失、右删失和区间删失观测。
时间 t 时的左删失观察 — 事件发生在时间 t 之前,确切的事件时间未知。
时间 t 时的右删失观察 — 事件发生在时间 t 之后,确切的事件时间未知。
区间 [t1,t2] 内的区间删失观察 — 事件发生在时间 t1 之后和时间 t2 之前,确切的事件时间未知。
双删失数据包括左删失和右删失观测值。
生存函数
生存函数是生存概率随时间变化的函数。 它也被称为幸存者函数。
生存函数给出了个体生存时间超过某个值的概率。 由于累积分布函数
# 提示
- 当您提供自定义分布函数或使用左删失、双删失、区间删失或截断观测值的内置分布时,mle 使用迭代最大化算法计算参数估计值。 对于某些模型和数据,起点 (start) 选择不当可能会导致 mle 收敛到不是全局最大化的局部最优值,或者无法完全收敛。 即使在对数似然在全局最大值附近表现良好的情况下,起点的选择对于算法的收敛通常也至关重要。 特别是,如果初始参数值远离 MLE,则分布函数中的下溢可能会导致无限对数似然。
# 算法
mle 函数通过最小化负对数似然函数(即最大化对数似然函数)或使用封闭式解(如果可用)来查找 MLE。 目标函数是给定分布参数 (
) 的情况下样本数据 ( ) 概率乘积的负对数值: 概率函数
取决于每个观察的审查信息。 - 完全观察到的观察值 —
,其中 是参数为 的概率密度函数 (pdf)。 - 左删失观察 —
,其中 是参数为 的累积分布函数 (cdf)。 - 右删失观测值 —
。 和 之间的区间删失观测值 — 。
对于截断数据,mle 会缩放分布函数,以便所有概率都位于截断边界
内。 - 完全观察到的观察值 —
mle 函数在可用且样本数据未截断且不包括左删失或区间删失观测值时使用精确方法计算置信区间 pci。 否则,该函数将使用 Wald 方法。 精确的方法可用于这些分布:二项分布、离散均匀分布、指数分布、正态分布、对数正态分布、泊松分布、瑞利分布和连续均匀分布。