Jacobian矩阵可被视为是一种组织梯度向量的方法。在前三篇中,我们给出了梯度的定义与计算公式,借助梯度可以简单得出雅可比矩阵的定义。 $$ \text{D}{\mathbf x}\mathbf f\overset{\text{def}}{=}(\nabla{\mathbf x} \mathbf f)^T $$ 易看出当雅可比矩阵为方阵时$\mathbf f(\mathbf x)与$$\mathbf x$是同维度向量,若雅可比矩阵不为方阵,则从$\mathbf f(\mathbf x)$到$\mathbf x$的映射是降维映射或升维映射。
在微分几何中雅可比矩阵可以衡量两个函数之间的变换是否光滑。
当雅可比矩阵为方阵时,雅可比矩阵的行列式可用于重积分换元,在二维情况下,有以下二重积分换元成立 $$ \begin{aligned} \iint_{\text{D1}}f(x,y)\text{dxdy}&=\iint _\text{D2}f(g(u,v),h(u,v))|J|\text{dudv}\ x&=g(u,v) \ y&=h(u,v) \end{aligned} $$ 其中 $$ \begin{aligned} J&=|\frac{\partial x\partial y}{\partial u\partial v}|\ &=\det(\begin{bmatrix}\frac{\partial x}{\partial u}&\frac{\partial x}{\partial v}\ \frac{\partial y}{\partial u}&\frac{\partial y}{\partial v} \end{bmatrix}) \end{aligned} $$ 即雅可比矩阵行列式,$\text{D1,D2}$是变换前后的区域。
推广至n维空间也成立。
高斯积分是最常见的一类积分,在光学、统计物理、量子场论等许许多多的领域都有着重要的地位,我曾经听过一种有趣的说法:“物理学家只学会了求解高斯积分”
$I=\int_{-\infty}^{\infty}e^{-\frac{x^2}{2}}\text{dx}$
2.$I=\int_{-\infty}^{\infty}e^{-\frac{ax^2}{2}+jx}\text{dx}$ $$ \begin{aligned} I&=\int_{-\infty}^{\infty}e^{-\frac{ax^2}{2}+jx}\text{dx}\ &=\int_{-\infty}^{\infty}e^{-\frac{1}{2}a(x^2-\frac{2j}{a}x+\frac{j^2}{a^2})+\frac{j^2}{2a^2}}\text{dx}\ &=e^{\frac{j^2}{2a^2}}\int_{-\infty}^{\infty}e^{-\frac{1}{2}a(x-\frac{j}{a})^2}\text{d}x \ &=e^{\frac{j^2}{2a^2}}\sqrt{\frac{2\pi}{a}} \end{aligned} $$
3.n重高斯积分:$I=\int_{-\infty}^{\infty}e^{-\frac{1}{2}\sum_{i=1}^{n}x_i^2}\text{d}x_1\text{d}x_2\cdots\text{d}x_n=\int_{-\infty}^{\infty}e^{-\frac{1}{2}\mathbf x^T\mathbf x}\text{d}\mathbf x$
由1易知$I=(2\pi)^{\frac{n}{2}}$
4.二次型任意:$I=\int_{-\infty}^{\infty}e^{-\frac{1}{2}\mathbf x^T\mathbf K\mathbf x}\text{d}\mathbf x$,$\mathbf K$为正定矩阵。
做分解$\mathbf K=\mathbf S^T\mathbf S$,使得$-\frac{1}{2}\mathbf x^T\mathbf K\mathbf x=-\frac{1}{2}(\mathbf S\mathbf x)^T(\mathbf S \mathbf x)$,令$\mathbf y=\mathbf S\mathbf x$ $$ \begin{aligned} I&=\int_{-\infty}^{\infty}e^{-\frac{1}{2}\mathbf x^T\mathbf K\mathbf x}\text{d}\mathbf x\ &=\int_{-\infty}^{\infty}e^{-\frac{1}{2}(\mathbf S\mathbf x)^T(\mathbf S \mathbf x)}\text{d}\mathbf x\ &=\int_{-\infty}^{\infty}e^{-\frac{1}{2}\mathbf y^T\mathbf y}|\frac{\partial \mathbf x}{\partial \mathbf y}|\text{d}\mathbf y\ &=|\frac{\partial \mathbf x}{\partial \mathbf y}|(2\pi)^{\frac{n}{2}}\ &=|\mathbf S|^{-1}(2\pi)^{\frac{n}{2}}\ &=|\mathbf K|^{-1/2}*(2\pi)^{\frac{n}{2}}\ &=\sqrt{\frac{(2\pi)^n}{\det\mathbf K}} \end{aligned} $$ 5.$I=\int_{-\infty}^{\infty}e^{-\frac{1}{2}\mathbf x^T\mathbf K\mathbf x+\mathbf b^T\mathbf x}\text{d}\mathbf x$ $$ -\frac{1}{2} \mathbf{x}^T \mathbf{K} \mathbf{x}+\mathbf{b}^T \mathbf{x}=-\frac{1}{2}\left(\mathbf{x}-\mathbf{K}^{-1} \mathbf{b}\right)^T \mathbf{K}\left(\mathbf{x}-\mathbf{K}^{-1} \mathbf{b}\right)+\frac{1}{2} \mathbf{b}^T \mathbf{K}^{-1} \mathbf{b} $$
可知$I=\sqrt{\frac{(2\pi)^n}{\det\mathbf K}}e^{\frac{1}{2}\mathbf b^T\mathbf K^{-1}\mathbf b}$
(1)n维高斯分布的表达式为$p(\mathbf x)=\frac{1}{(2\pi)^{\frac{n}{2}}}\frac{1}{\sqrt{\det|\Sigma|}}e^{-\frac{1}{2}(\mathbf x-\mu)^T\Sigma^{-1}(\mathbf x-\mu)}$ $$ \begin{aligned} \int_{-\infty}^{\infty} p(\mathbf x)\text{d}\mathbf x&=\frac{1}{(2\pi)^{\frac{n}{2}}}\frac{1}{\sqrt{\det|\Sigma|}}\int_{-\infty}^{\infty}e^{-\frac{1}{2}(\mathbf x-\mu)^T\Sigma^{-1}(\mathbf x-\mu)}\text{d}\mathbf x\ &=\frac{1}{(2\pi)^{\frac{n}{2}}}\frac{1}{\sqrt{\det|\Sigma|}}*\int_{-\infty}^{\infty}e^{-\frac{1}{2}\mathbf x^T\Sigma^{-1}\mathbf x}\text{d}\mathbf x\ &=1 \end{aligned} $$ (2)巴氏距离(Bhattacharyya distance),其定义为 $$ BD(p(\mathbf x),q(\mathbf x))=-\log \int\sqrt{p(\mathbf x),q(\mathbf x)}\text{d}\mathbf x $$ 对于两个正态分布来说,它们的巴氏距离是以下积分的负对数 $$ \begin{aligned} \int \sqrt{p(\boldsymbol{x}) q(\boldsymbol{x})} d \boldsymbol{x}&=\frac{1}{\sqrt[4]{(2 \pi)^{2 n} \operatorname{det}\left(\boldsymbol{\Sigma}_p \boldsymbol{\Sigma}_q\right)}} \times \int \exp \left{-\frac{1}{4}\left(\boldsymbol{x}-\boldsymbol{\mu}_p\right)^{\top} \boldsymbol{\Sigma}_p^{-1}\left(\boldsymbol{x}-\boldsymbol{\mu}_p\right)-\frac{1}{4}\left(\boldsymbol{x}-\boldsymbol{\mu}_q\right)^{\top} \boldsymbol{\Sigma}_q^{-1}\left(\boldsymbol{x}-\boldsymbol{\mu}_q\right)\right} d \boldsymbol{x} \end{aligned} $$ 记$\boldsymbol{y}=\boldsymbol{x}-\boldsymbol{\mu}_p, \boldsymbol{\Delta}=\boldsymbol{\mu}_p-\boldsymbol{\mu}_q$,换元可得 $$ \begin{aligned} & \int \exp \left{-\frac{1}{4} \boldsymbol{y}^{\top} \boldsymbol{\Sigma}_p^{-1} \boldsymbol{y}-\frac{1}{4}(\boldsymbol{y}+\boldsymbol{\Delta})^{\top} \boldsymbol{\Sigma}_q^{-1}(\boldsymbol{y}+\boldsymbol{\Delta})\right} d \boldsymbol{y} \ = & \int \exp \left{-\frac{1}{4} \boldsymbol{y}^{\top}\left(\boldsymbol{\Sigma}_p^{-1}+\boldsymbol{\Sigma}_q^{-1}\right) \boldsymbol{y}-\frac{1}{2} \boldsymbol{\Delta}^{\top} \boldsymbol{\Sigma}_q^{-1} \boldsymbol{y}-\frac{1}{4} \boldsymbol{\Delta}^{\top} \boldsymbol{\Sigma}_q^{-1} \boldsymbol{\Delta}\right} d \boldsymbol{y} \ = & \int \exp \left{-\frac{1}{2} \boldsymbol{y}^{\top}\left(\boldsymbol{\Sigma}_p^{-1} \boldsymbol{\Sigma} \boldsymbol{\Sigma}_q^{-1}\right) \boldsymbol{y}-\frac{1}{2} \boldsymbol{\Delta}^{\top} \boldsymbol{\Sigma}_q^{-1} \boldsymbol{y}-\frac{1}{4} \boldsymbol{\Delta}^{\top} \boldsymbol{\Sigma}_q^{-1} \boldsymbol{\Delta}\right} d \boldsymbol{y} \end{aligned} $$ 其中$\boldsymbol{\Sigma}=\frac{1}{2}\left(\boldsymbol{\Sigma}_p+\boldsymbol{\Sigma}_q\right)$
最后积分的结果为$\sqrt{(2 \pi)^n \operatorname{det}\left(\boldsymbol{\Sigma}_q \boldsymbol{\Sigma}^{-1} \boldsymbol{\Sigma}_p\right)} \exp \left{-\frac{1}{8} \boldsymbol{\Delta}^{\top} \boldsymbol{\Sigma}^{-1} \boldsymbol{\Delta}\right}$
也可直接利用如下公式计算 $$ \begin{aligned} & -\frac{1}{2}\left(\mathbf{x}-\mathbf{m}_1\right)^T \boldsymbol{\Sigma}_1^{-1}\left(\mathbf{x}-\mathbf{m}_1\right) -\frac{1}{2}\left(\mathbf{x}-\mathbf{m}_2\right)^T \mathbf{\Sigma}_2^{-1}\left(\mathbf{x}-\mathbf{m}_2\right) \ & =-\frac{1}{2}\left(\mathbf{x}-\mathbf{m}_c\right)^T \boldsymbol{\Sigma}_c^{-1}\left(\mathbf{x}-\mathbf{m}_c\right)+C \ & \boldsymbol{\Sigma}_c^{-1}=\boldsymbol{\Sigma}_1^{-1}+\boldsymbol{\Sigma}_2^{-1} \ & \mathbf{m}_c=\left(\boldsymbol{\Sigma}_1^{-1}+\boldsymbol{\Sigma}_2^{-1}\right)^{-1}\left(\boldsymbol{\Sigma}_1^{-1} \mathbf{m}_1+\boldsymbol{\Sigma}_2^{-1} \mathbf{m}_2\right) \ & C=\frac{1}{2}\left(\mathbf{m}_1^T \boldsymbol{\Sigma}_1^{-1}+\mathbf{m}_2^T \boldsymbol{\Sigma}_2^{-1}\right)\left(\boldsymbol{\Sigma}_1^{-1}+\boldsymbol{\Sigma}_2^{-1}\right)^{-1}\left(\boldsymbol{\Sigma}_1^{-1} \mathbf{m}_1+\boldsymbol{\Sigma}_2^{-1} \mathbf{m}_2\right) \ & -\frac{1}{2}\left(\mathbf{m}_1^T \boldsymbol{\Sigma}_1^{-1} \mathbf{m}_1+\mathbf{m}_2^T \boldsymbol{\Sigma}_2^{-1} \mathbf{m}_2\right) \ & \end{aligned} $$
所以最终 $$ \begin{aligned} B D(p(\boldsymbol{x}), q(\boldsymbol{x})) & =-\log \frac{\sqrt{(2 \pi)^n \operatorname{det}\left(\boldsymbol{\Sigma}_q \boldsymbol{\Sigma}^{-1} \boldsymbol{\Sigma}_p\right)}}{\sqrt[4]{(2 \pi)^{2 n} \operatorname{det}\left(\boldsymbol{\Sigma}_p \boldsymbol{\Sigma}_q\right)}} \exp \left{-\frac{1}{8} \boldsymbol{\Delta}^{\top} \boldsymbol{\Sigma}^{-1} \boldsymbol{\Delta}\right} \ & =-\log \frac{\sqrt[4]{\operatorname{det}\left(\boldsymbol{\Sigma}_p \boldsymbol{\Sigma}_q\right)}}{\sqrt{\operatorname{det}(\boldsymbol{\Sigma})}} \exp \left{-\frac{1}{8} \boldsymbol{\Delta}^{\top} \boldsymbol{\Sigma}^{-1} \boldsymbol{\Delta}\right} \ & =\frac{1}{2} \log \frac{\operatorname{det}(\boldsymbol{\Sigma})}{\sqrt{\operatorname{det}\left(\boldsymbol{\Sigma}_p \boldsymbol{\Sigma}_q\right)}}+\frac{1}{8}\left(\boldsymbol{\mu}_p-\boldsymbol{\mu}_q\right)^{\top} \boldsymbol{\Sigma}^{-1}\left(\boldsymbol{\mu}_p-\boldsymbol{\mu}_q\right) \end{aligned} $$