加载中...

概率估计方法


概率估计方法

在实践中,概率分布通常是未知的,如何从样本中识别出潜在的概率分布是统计估计。当知道观测值 {x}\{\boldsymbol{x}\} 时,估计参数 θ\boldsymbol{\theta} 就是参数估计;当知道参数 θ\boldsymbol{\theta} 时,预测观测值 {x^}\{\boldsymbol{\hat{x}}\} 就是预测。参数估计的目的时为了对新的观测值进行预测。

  • 参数方法

    • 极大似然估计MLE
    • 最大化后验估计MAP
  • 非参数方法

    • 直方图方法

    • 核密度估计KDE

    • 最近邻密度估计NNDE

两种观点(关于参数方法 θ\boldsymbol{\theta}

假设我们有一个样本数据集合 D={X1,X2,,Xn}\mathbf{D}=\{\mathbf{X}^1,\mathbf{X}^2,\dots,\mathbf{X}^n\},其中每个样本 Xi=(x1i,x2i,,xmi)\mathbf{X}^i=(\boldsymbol{x}_1^i,\boldsymbol{x}_2^i,\dots,\boldsymbol{x}_m^i) 都是从一个未知分布 p(X;θ)p(\mathbf{X};\boldsymbol{\theta}) 中独立地抽取得到的。我们要通过这些样本数据,估计出这个未知分布的某些参数 θ=(θ1,θ2,,θb)\boldsymbol{\theta}=(\theta_1,\theta_2,\dots,\theta_b)

频率派和贝叶斯派是概率统计学中两个主要的派别,它们对于统计推断的基本假设和方法有不同的观点。

  • 频率派认为,概率是事件在长期重复试验中出现的频率,因此概率是客观存在的,不依赖于任何主观假设。在频率派的框架下,统计推断的目标是从样本中推断出总体的未知参数,并通过置信区间和假设检验等方法对统计结论进行评估。频率派的方法通常基于假设检验和置信区间,强调的是样本的规模和可靠性,而不考虑先验知识和主观因素。

  • 贝叶斯派则认为,概率是在已知先验知识的情况下,根据新的数据更新后验概率的一种度量。因此,贝叶斯派方法强调的是先验知识和主观因素的重要性。在贝叶斯派的框架下,统计推断的目标是基于已知的数据和先验知识,推断出未知参数的后验分布,并通过后验分布的点估计和区间估计等方法对统计结论进行评估。

一般来说 p(X;θ)p(\mathbf{X};\boldsymbol{\theta}) 结构是给定的,例如假设 pp 为高斯分布,θ\boldsymbol{\theta} 就是 μ,Σ\mu,\Sigma;假设 pp 为一个神经网络模型,θ\theta就是所有神经网络参数

1. 频率派观点(参数 θ\boldsymbol{\theta} 是未知常量)

极大似然估计(Maximum Likelihood Estimation,简称MLE)是一种常用的参数估计方法。其基本思想是在给定观测数据的情况下,寻找一个能够最大化样本似然函数的参数值,作为总体参数的估计值。

对于给定的样本数据,我们可以计算出其似然函数 L(θ)L(\boldsymbol{\theta}),它表示在给定参数 θ\boldsymbol{\theta} 的情况下,这个样本数据出现的概率密度函数值的乘积。

L(θ)=i=1np(Xi;θ)L(\boldsymbol{\theta})=\prod_{i=1}^{n}p(\mathbf{X}^i;\boldsymbol{\theta})

其中 Xi\mathbf{X}^i 表示样本数据中的第 ii 个样本观测值。

MLE的核心思想就是在所有可能的参数取值中,寻找一个能够最大化似然函数 L(θ)L(\boldsymbol{\theta}) 的参数 θ^MLE\hat{\boldsymbol{\theta}}_{MLE},此时的密度估计p(X;θ^MLE)p(\mathbf{X};\hat{\boldsymbol{\theta}}_{MLE}),即:

θ^MLE=argmaxθL(θ)=argmaxθlogL(θ)=argmaxθlogi=1np(Xi;θ)=argmaxθi=1nlogp(Xi;θ)\begin{aligned} \hat{\boldsymbol{\theta}}_{MLE}&=\underset{\theta}{\operatorname{arg max}} L(\boldsymbol{\theta}) \\ &=\underset{\boldsymbol{\theta}}{\operatorname{arg max}} \log L(\boldsymbol{\theta}) \\ &=\underset{\boldsymbol{\theta}}{\operatorname{arg max}} \log \prod_{i=1}^{n}p(\mathbf{X}^i;\boldsymbol{\theta}) \\ &=\underset{\boldsymbol{\theta}}{\operatorname{arg max}} \sum_{i=1}^{n}\log p(\mathbf{X}^i;\boldsymbol{\theta}) \end{aligned}

简单情况下,如果 L(θ)L(\boldsymbol{\theta}) 可微,我们会使用数值优化方法来求解上式,以找到最大化对数似然函数的参数 θ^MLE\hat{\boldsymbol{\theta}}_{MLE}。求解的方法是直接对对数似然函数求导,并令其等于 0\boldsymbol{0},得到:

θlogL(θ)=i=1nθlogp(Xi;θ)=0\frac{\partial }{\partial \boldsymbol{\theta}}\log L(\boldsymbol{\theta})=\sum_{i=1}^{n}\frac{\partial}{\partial \boldsymbol{\theta}}\log p(\mathbf{X}^i;\boldsymbol{\theta})=\boldsymbol{0}

极大似然估计可能存在多个估计值,这时需要根据具体情况选择最优的估计值。另外,极大似然估计也可能出现无解或者不稳定的情况,需要进行额外的处理或者使用其他的估计方法。

MLE具有良好的渐进性质,当样本量充分大时,MLE的估计结果具有一致性渐进无偏性渐进正态性渐进有效性等性质。

参数计算:梯度下降、EM算法

模型选择:KL散度、AIC信息论准则(大样本)、交叉检验

2. 贝叶斯派观点(参数 θ\boldsymbol{\theta} 是随机变量)

在贝叶斯统计学中,参数的估计是通过后验概率分布来实现的,θp(θ)\boldsymbol{\theta} \sim p(\boldsymbol{\theta})。在给定数据集 D\mathbf{D} 的情况下,参数 θ\boldsymbol{\theta} 的后验概率分布可以表示为:

p(θD)=p(Dθ)p(θ)p(D)p(\boldsymbol{\theta} | \mathbf{D}) = \frac{p(\mathbf{D} | \boldsymbol{\theta}) p(\boldsymbol{\theta})}{p(\mathbf{D})}

其中,p(Dθ)p(\mathbf{D} | \boldsymbol{\theta}) 表示数据集 D\mathbf{D} 在给定参数 θ\boldsymbol{\theta} 的条件下的似然函数,p(θ)p(\boldsymbol{\theta}) 表示参数 θ\boldsymbol{\theta} 的先验分布,p(D)p(\mathbf{D}) 表示数据集 D\mathbf{D} 的边缘概率分布。

  • 先验分布:贝叶斯统计学中,将参数视为随机变量,引入了先验分布用于描述参数的不确定性信息。先验分布可以是任何概率分布,通常是基于领域知识或历史数据来选择的。

  • 后验概率分布:在贝叶斯统计学中,参数的估计不再是一个点估计值,而是一个后验概率分布。后验概率分布表示参数在给定数据的情况下的不确定性,它可以用于计算置信区间、预测区间等信息。

  • 边缘概率分布:在贝叶斯统计学中,边缘概率分布是指在所有可能参数值上的联合概率分布的积分,边缘概率分布是计算后验概率分布时的归一化常数,通常可以通过数值积分或MCMC等方法进行计算。

p(D)=p(D,θ)dθ=p(Dθ)p(θ)dθ=i=1np(Xi;θ)p(θ)dθp(\mathbf{D}) =\int p(\mathbf{D},\boldsymbol{\theta}) d\boldsymbol{\theta} =\int p(\mathbf{D} | \boldsymbol{\theta})p(\boldsymbol{\theta}) d\boldsymbol{\theta}=\int \prod_{i=1}^{n}p(\mathbf{X}^i;\boldsymbol{\theta})p(\boldsymbol{\theta})d\boldsymbol{\theta}

  • 贝叶斯因子:贝叶斯因子是用于比较两个模型相对拟合数据的相对证据的指标。贝叶斯因子等于两个模型的边缘概率分布的比值,即:

BFij=p(DMi)p(DMj)\text{BF}_{ij} = \frac{p(\mathbf{D} | M_i)}{p(\mathbf{D} | M_j)}

其中,MiM_iMjM_j 分别表示两个模型,p(DMi)p(\mathbf{D} | M_i)p(DMj)p(\mathbf{D} | M_j) 分别表示数据集 D\mathbf{D} 在模型 MiM_iMjM_j 下的边缘概率分布。当 BFij\text{BF}_{ij} 大于1时,说明模型 MiM_i 比模型 MjM_j 更能解释数据。

贝叶斯估计的问题可以用一个损失函数来衡量估计的准确性,如果用均方误差(MSE)来估计的话,我们将问题建模为:

L=E[(θ^(X)θ)2]L=\mathbb{E}\left[\left(\hat{\boldsymbol{\theta}}(\mathbf{X})-\boldsymbol{\theta}\right)^2\right]

而这样等价于求解后验分布的均值:

θ^(X)=E[θx]=θp(θx)dθ\hat{\theta}(\mathbf{X})=\mathbb{E}\left[\boldsymbol{\theta}|\boldsymbol{x}\right]=\int \boldsymbol{\theta} p(\boldsymbol{\theta}|\boldsymbol{x})d\theta

这被称为最小均方误差估计器 minimum mean square error (MMSE)。

贝叶斯预测分布(Bayesian predictive distribution)是贝叶斯统计学中的一个概念,它描述了基于已知数据和模型参数的情况下,对未知数据的预测分布。贝叶斯预测分布是一种计算密度的方法,即计算参数模型 p(Xθ)p(\mathbf{X} | \boldsymbol{\theta}) 在后验概率 p(θD)p(\boldsymbol{\theta} | \mathbf{D}) 上的期望。

p^Bayes(XD)=p(Xθ)p(θD)dθ=p(Xθ)p(Dθ)p(θ)p(D)dθ=p(Xθ)i=1np(Xi;θ)p(θ)i=1np(Xi;θ)p(θ)dθdθ\begin{aligned} \hat p_{Bayes}(\mathbf{X} | \mathbf{D})&=\int p(\mathbf{X} | \boldsymbol{\theta})p(\boldsymbol{\theta} | \mathbf{D}) d\boldsymbol{\theta}\\ &=\int p(\mathbf{X} | \boldsymbol{\theta})\frac{p(\mathbf{D} | \boldsymbol{\theta}) p(\boldsymbol{\theta})}{p(\mathbf{D})} d\boldsymbol{\theta} \\ &=\int p(\mathbf{X} | \boldsymbol{\theta})\frac{\prod_{i=1}^{n}p(\mathbf{X}^i;\boldsymbol{\theta}) p(\boldsymbol{\theta})}{\int \prod_{i=1}^{n}p(\mathbf{X}^i;\boldsymbol{\theta}')p(\boldsymbol{\theta}') d\boldsymbol{\theta}'} d\boldsymbol{\theta} \end{aligned}

如果参数模型 p(Xθ)p(\mathbf{X} | \boldsymbol{\theta}) 和先验概率 p(θ)p(\boldsymbol{\theta}) 是给定的,那贝叶斯推测分布原理上可以不通过任何学习计算出来,然而,如果 θ\boldsymbol{\theta} 的维数过高,那么上面两个积分式计算起来会很复杂。因此,在贝叶斯推理中一个主要的技术问题是如何高效地处理高维积分。

为了简单地处理上面的积分,解析地获得后验概率 p(θD)p(\boldsymbol{\theta} | \mathbf{D}) 是一种好方式。一种可能的方式是手动选择先验概率 p(θ)p(\boldsymbol{\theta}),然后就可以清楚地得到后验概率 p(θD)p(\boldsymbol{\theta} | \mathbf{D}) 的参数形式。另一种可能的方式是求积分式的解析近似。此外还有方法就是直接使用后验概率求单点的 p(θD)p(\boldsymbol{\theta} | \mathbf{D}),即最大化后验估计。

最大化后验概率 (Maximum a posteriori estimation,MAP)是另一种一种常用的参数估计方法,它的本质是在贝叶斯统计学框架下,使用后验概率最大化来确定参数的点估计值。在 MAP 方法中,通过最大化后验概率 p(θD)p(\boldsymbol{\theta} | \mathbf{D}) 来确定参数的点估计值。如果样本是独立同分布的取出来的,计算公式为

θ^MAP=argmaxθp(θD)=argmaxθp(Dθ)p(θ)=argmaxθi=1np(Xi;θ)p(θ)=argmaxθi=1nlogp(Xi;θ)+logp(θ)\begin{aligned} \hat{\theta}_{MAP}&=\underset{\boldsymbol{\theta}}{\operatorname{arg max}} p(\boldsymbol{\theta} | \mathbf{D}) \\ &=\underset{\boldsymbol{\theta}}{\operatorname{arg max}} p(\mathbf{D} | \boldsymbol{\theta}) p(\boldsymbol{\theta}) \\ &=\underset{\boldsymbol{\theta}}{\operatorname{arg max}} \prod_{i=1}^{n}p(\mathbf{X}^i;\boldsymbol{\theta}) p(\boldsymbol{\theta}) \\ &=\underset{\boldsymbol{\theta}}{\operatorname{arg max}} \sum_{i=1}^{n}\log p(\mathbf{X}^i;\boldsymbol{\theta}) + \log p(\boldsymbol{\theta}) \end{aligned}

此时的密度估计p(X;θ^MAP)p(\mathbf{X};\hat{\boldsymbol{\theta}}_{MAP})。前一项就是MLE,后一项是正则化项,因此MAP也被称为修正的极大似然估计。

模型选择:在贝叶斯推理里面先验概率决定了贝叶斯推理的解,即 p(θ;β)p(\boldsymbol{\theta};\beta)

3. 总结比较

各种都在想尽办法计算 p(X)p(\mathbf{X})

  • 第一种方式是 p(X;θ)p(\mathbf{X};\boldsymbol{\theta}),其中 θ\boldsymbol{\theta} 是计算出来的常量,例如 θ^MLE\hat{\boldsymbol{\theta}}_{MLE}θ^MAP\hat{\boldsymbol{\theta}}_{MAP}
  • 第二种方式是 p(XD)p(\mathbf{X} | \mathbf{D}),即贝叶斯预测分布

频率派—>统计机器学习—>优化问题—>(损失函数是什么;优化算法是什么)

贝叶斯派—>概率图模型—>积分问题和概率计算—>(精确计算;近似计算)


文章作者: JiJunhao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 JiJunhao !
  目录