From beed775a0377503976017c71692a14474ecb0a5a Mon Sep 17 00:00:00 2001 From: KevinZonda <33132228+KevinZonda@users.noreply.github.com> Date: Sat, 23 Nov 2024 17:07:57 +0000 Subject: [PATCH] GMM --- Clustering/GMM.md | 17 ++++++++++++++++- 1 file changed, 16 insertions(+), 1 deletion(-) diff --git a/Clustering/GMM.md b/Clustering/GMM.md index 43a9b5f..86d19ba 100644 --- a/Clustering/GMM.md +++ b/Clustering/GMM.md @@ -17,4 +17,19 @@ $$ p(x \mid z = k) = \mathcal{N}_k(x) $$ -而 $z$ 并非是观测出来的值,因此我们称其为隐变量(latent variable)。 \ No newline at end of file +考虑 $z$ 和 $x$ 是 iid 的,因此其联合分布可以写作: + +$$ +p(x, z) += p(x \mid z) p(z) +$$ + +而 $z$ 并非是观测出来的值,因此我们称其为隐变量(latent variable)。 + +考虑我们有 $k$ 个高斯分布,我们需要知道我们怎么混合这个高斯分布。我们可以用 $\phi$ 表示,即我们可以认为 $\phi_j$ 为数据点属于第 $j$ 个高斯分布权重,假设有 3 个高斯分布,且 $\phi = [0.3, 0.5, 0.2]$,则数据点属于第 1 个高斯分布的概率为 0.3,属于第 2 个高斯分布的概率为 0.5,属于第 3 个高斯分布的概率为 0.2。$\phi$ 控制着各个高斯分量在混合模型中的"比重",实际上定义了多项分布(Multinomial)的参数,这个分布用于随机选择使用哪个高斯分量。即: + +$$ +z \sim \text{Multinomial}(\phi) \text{ where }\sum ^k _{j=1 } \phi_j = 1 +$$ + +