基于指数族分布的变分推断——变分推断（二）

如题所述

第1个回答 2022-07-26

让我们书接上文。

前一篇博客（ 基于近似计算解决推断问题——变分推断（一） ）我们说到基于高斯贝叶斯混合的 CAVI （坐标上升变分推断），那么，我们能不能将这类变分推断进行扩展，变成更为通用的算法框架呢？

显然，基于 指数分布族 （exponential families）的某些特性，这样的做法是可行的。下面让我们先看看什么是指数分布族。

本文主要参考的文献为David M.Blei 2018年发表的论文 Variational Inference: A Review for Statisticians 。

指数族分布 （exponential family of distributions）也叫指数型分布族，包含 高斯分布 、 伯努利分布 、 二项分布 、 泊松分布 、 Beta 分布 、 Dirichlet 分布 、 Gamma 分布 。指数族分布通常可以表示为：

其中有几个比较重要的参数后面可能会用到：

或者，也可以采用另一种表示形式：

其中，是指数族的 自然参数 ，为 尺度参数 或 讨厌参数 。和依据不同指数族而确定的函数。注意只由和决定

常见的指数分布族

一维高斯分布

一维变量若服从均值为、方差为的一维高斯分布，则可以表示为

公式（a）的形式

如果按照公式（a）对高斯分布的公式进行转变，则可以变为

可以看到，自然参数可以表示为，对数配分函数可以表示为。按照这个公式，我们可以计算出均值、方差与自然函数的关系

这也是上一篇博客中，公式（34）的由来。

公式（b）的形式

按照公式（b），可以化为

其中，

对概率密度函数求积分：

两边对参数求导

类似的

由于方差为正，所以一定是凸函数

对于独立分布采样得到的数据集

的的极大似然估计为

所以，如果要进行估算参数，只要知道 充分统计量 就可以了

信息熵公式为

对于一个数据集，在这个数据集上的经验分布为，实际不可能满足所有的经验概率相同，于是在上面的最大熵原理中还需要加入这个经验分布的约束。

对于任意一个函数，经验分布的经验期望可以求得为

Lagrange 函数为

求导可得

由于数据集是任意的，对数据集求和就意味着求和项里面的每一项都是0，所以有

这就是指数族分布的公式。

在推断问题中，我们常常要计算下列式子

上式中分母积分十分难计算，为了解决积分难计算的问题，一个思路是能否绕过积分呢？我们知道存在如下关系，其中是后验分布，是似然，是先验

如果存在这样的⼀个先验分布，那么上⼀时刻的输出可以作为下⼀时刻计算的先验分布，那么这样整个计算就可以形成闭环。也就是说 如果后验分布和先验分布是同分布，此时我们称先验分布和后验分布是共轭分布，且称先验分布是似然函数的共轭先验 。⽐如⾼斯分布家族在⾼斯似然函数下与其⾃身共轭，也叫⾃共轭。

共轭先验的好处主要在于代数上的方便性 ，可以直接给出后验分布的封闭形式，否则的话只能做数值计算

对于一个模型分布假设（似然），那么我们在求解中，常常需要寻找一个共轭先验，使得先验与后验的形式相同，例如选取似然是二项分布，可取先验是 Beta 分布，那么后验也是 Beta 分布。指数族分布常常具有共轭的性质，于是我们在模型选择以及推断具有很大的便利。

在上一篇博客中，我们提到，在推断问题中，对于第个隐变量，其 complete conditional （完全条件）为给定其他隐变量和观测数据时，它的条件密度，即。结合指数族分布的概念，当后验分布为指数族分布时，我们可以将隐变量的 complete conditional 写为

其中，

所以，根据上一篇博客中，我们知道 CAVI 算法的参数更新公式（17），当假设后验分布为指数族分布时，坐标上升的更新公式为

更新公式揭示了更新变分因子的参数形式，每一个更新因子都 与它对应的 complete conditional 属于同一指数族 ，它的参数拥有相同维度以及相同的基本测量和对数归因算子。

我们可以令为第个数据点的变分参数，当我们更新每个因子时，只需要令其变分参数等于完全条件的期望参数

对于指数族模型，一个比较特殊的情况是 条件共轭模型 （conditionally conjugate models），它在贝叶斯学习和机器学习中常被运用。

我们将条件共轭模型涉及的变量可以分为两类

根据 i.i.d. 假设，其联合分布可以表示为

回顾前面提到的高斯混合，用这类的模型解释的话，全局变量就是混合组件参数，而局部变量就是每个数据点的聚类分配。

我们假设基于全局变量，每个数据点的联合分布，都有指数族形式

其中为充分统计量。

接下来，我们可以假设全局变量的先验分布是公式（42）的共轭分布

这一分布的自然参数为，充分统计量为全局变量及其对数归一化的负数。

有了上述的共轭先验，我们也能让得到全局变量的 complete conditional 也在同一分布

其中，基本测量为，自然参数为。

而对于局部变量的 complete conditional ，在 i.i.d. 假设下有等式

我们假设其服从指数族分布

接下来让我们将这个模型引入 CAVI 算法框架。我们将的变分后验分布近似表示为（为 全局变分参数 ），它与后验分布有相同的指数族分布；将的变分后验分布近似为，其中为数据点的 局部变分参数 ，它与局部 complete condititonal 有相同的指数族分布。

在 CAVI 算法中，我们将迭代地进行局部变分参数和全局变分参数的更新。

局部变分参数的更新

这里我们用到前面的公式（40），可以得到更新公式

得到的结果为公式（45）中自然参数的期望。

全局变分参数的更新

全局变分参数的更新利用类似的方法，更新公式为

得到的结果为公式（44）中自然参数的期望。

ELBO 的计算

CAVI 通过迭代更新局部变分参数和全局变分参数，每次迭代我们可以计算 ELBO ，来决定模型是否收敛。将公式（44）带入 ELBO 公式（13），我们可以得到条件共轭模型的 ELBO

后面一项可以表示为

论文中附录 C 还有描述了基于 LDA 的 CAVI 算法，有兴趣的小朋友可以看一下论文，这里不过多赘述。

CAVI 给了变分推断问题一个解决问题的框架，引入指数族分布使得模型更加简化，似乎到这里问题已经解决得差不多了，但事实上真的是这样吗？

实际上，在真实场景中，我们要应对的数据可能是成百上千甚至是上十万的，这就给 CAVI 这一算法框架带来了极大的挑战。 CAVI 在计算过程中，每一次迭代都需要遍历所有数据，随着数据量的增加，计算量也越来越大，这显然是不符合我们的需要。

所以，我们还需要另外一套计算方法，对算法的效率进行优化。这也是我下一篇博客会讲到的两种方法—— 随机变分推断 （Stochastic variational inference，SVI）和 变分自编码器 （Variational Auto-encoder，VAE）。

相似回答

如何简单易懂地理解变分推断(variational inference)?答：变分推断的通用性和可扩展性使其在这些情况下大显身手，如在高斯混合模型中，通过类别分布和多个独立高斯分布共同生成数据。当我们构建 q(z; v) 时，如果 p 属于高斯或指数族分布，我们可以选择 q 保持同样的类型，利用其特性简化优化过程。mean-field方法是一种常见的策略，它假设所有变量独立，尽管这...

变分贝叶斯初探答：【译者按:“推断”在这里指的是从观察变量的概率分布导出隐变量的概率分布】这在视觉上如下图所示:蓝色曲线是真实的后验分布,绿色分布是通过优化得到的拟合蓝色密度的变分近似(高斯分布)。两个分布“接近”意味着什么? 平均场变分贝叶斯(最常见的类型)使用反向KL散度作为两个分布之间的距离度量。反向KL散度测...

漫谈反问题答：变分法，这项深奥的数学技术，专攻极值问题，比如固定端点的变分问题，为复杂问题提供了求解的舞台。在统计学的前沿，变分推断将棘手的推断问题转化为优化任务，通过 q分布逼近难以触及的 p分布，如在高斯混合模型中，EM算法如诗如画地展现其魔力。然而，生成模型中边缘概率的计算往往陷入困境，尤其是在连续...

理解变分自编码器(VAE)答：探索深度学习领域的无监督魔法——变分自编码器（VAE），它巧妙地融合了自编码器的重构能力与变分推断的统计威力。VAE的核心在于利用变分方法，将参数估计、后验推断和边际分布的难题转化为优化问题，而这正是通过设置识别模型逼近后验分布，进而实现高效且稳定的推断。VAE的构造精妙，将自编码器的"编码器"...

大家正在搜