高斯分布

女足世界杯中国17512025-07-27 04:39:23

高斯分布

高斯分布概念协方差矩阵的传播(covariance propagation)多元高斯概率密度函数的拆分与组合高斯分布边缘化(Marginalization)高斯分布的独立性与不相关性

高斯分布概念

高斯分布(正态分布)是一个常见的连续概率分布。正态分布的数学期望值或期望值

μ

{\displaystyle \mu }

μ 等于位置参数,决定了分布的位置;其方差

σ

2

\sigma ^{2}

σ2的开平方或标准差

σ

\sigma

σ 等于尺度参数,决定了分布的幅度。正态分布的概率密度函数曲线呈钟形,因此人们又经常称之为钟形曲线(类似于寺庙里的大钟,因此得名)。我们通常所说的标准正态分布是位置参数

μ

=

0

\mu = 0

μ=0,方差

σ

2

=

1

\sigma^{2}=1

σ2=1的正态分布。(源自wiki百科) 若随机变量

X

X

X服从一个位置参数为

μ

\mu

μ、方差为

σ

2

\sigma^2

σ2的正态分布,可以记为

X

X

X~

N

(

μ

,

σ

2

)

N(\mu,\sigma^2)

N(μ,σ2),则其概率密度函数为

f

(

x

)

=

1

σ

2

π

e

x

p

(

(

x

μ

)

2

2

σ

2

)

f(x) = \frac{1} {{\sigma\sqrt{2\pi}}}exp(-\frac{(x-\mu)^2}{2\sigma^2})

f(x)=σ2π

​1​exp(−2σ2(x−μ)2​)

从上面可以看到,一维高斯分布可以用变量均值和方差进行描述,那么二维高斯分布的呢?一维正态分布只有一个变量,则二维高斯分布则包含有两个变量,二维高斯分布的均值

μ

\mu

μ由两个变量的均值描述,其方差由变量的协方差矩阵进行描述,协方差矩阵

Σ

\Sigma

Σ 表示的是两个变量之间的关系。

μ

=

(

μ

a

μ

b

)

Σ

=

(

σ

x

2

ρ

σ

x

σ

y

ρ

σ

x

σ

y

σ

y

2

)

\mu = {\mu_a \choose \mu_b } \quad \Sigma = \begin{pmatrix} \sigma^2_x & \rho\sigma_x\sigma_y \\ \rho\sigma_x\sigma_y & \sigma^2_y \end{pmatrix}

μ=(μb​μa​​)Σ=(σx2​ρσx​σy​​ρσx​σy​σy2​​)

其中,

ρ

σ

x

σ

y

\rho\sigma_x\sigma_y

ρσx​σy​和

ρ

σ

y

σ

x

\rho\sigma_y\sigma_x

ρσy​σx​分别为两个变量的协方差值。协方差的计算公式如下:

C

o

v

(

X

,

Y

)

=

E

[

(

X

E

(

X

)

(

Y

E

(

Y

)

]

=

E

[

X

Y

]

E

[

X

]

E

[

Y

]

\begin{aligned} Cov(X,Y) &= E[(X-E(X)(Y-E(Y)] \\ &= E[XY] - E[X]E[Y] \end{aligned}

Cov(X,Y)​=E[(X−E(X)(Y−E(Y)]=E[XY]−E[X]E[Y]​

协方差为正,则说明这两个变量呈正相关,为零则不相关,为负则为负相关。

对于一个二维高斯随机变量

x

x

x~

N

(

μ

,

Σ

)

N(\mu,\Sigma)

N(μ,Σ),其概率密度可以表示为:

P

(

x

)

=

1

2

π

Σ

e

x

p

(

1

2

(

x

μ

)

T

Σ

1

(

x

μ

)

)

P(x) = \frac{1}{|2\pi\Sigma|}exp(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu))

P(x)=∣2πΣ∣1​exp(−21​(x−μ)TΣ−1(x−μ))

其图形可表示为:

协方差矩阵的传播(covariance propagation)

一个高斯随机变量的线性变换仍是高斯随机变量。 假设一个高斯随机变量

x

x

x~

N

(

μ

,

Σ

)

N(\mu,\Sigma)

N(μ,Σ),如果有

x

=

A

x

+

b

x^{\prime} = Ax + b

x′=Ax+b,则

x

x^{\prime}

x′~

N

(

μ

,

Σ

)

N(\mu^{\prime},\Sigma^{\prime})

N(μ′,Σ′)。其中,

μ

\mu^{\prime}

μ′和

Σ

\Sigma^{\prime}

Σ′为:

μ

=

E

[

x

]

=

E

[

A

x

+

b

]

=

A

E

[

x

]

+

b

=

A

μ

+

b

\mu^\prime = E[x^{\prime}] = E[Ax+b] = AE[x] + b = A\mu + b

μ′=E[x′]=E[Ax+b]=AE[x]+b=Aμ+b

Σ

=

c

o

v

[

x

]

=

E

[

(

x

E

[

x

]

)

(

x

E

[

x

]

)

]

=

A

E

[

(

x

μ

)

(

x

μ

)

T

]

A

T

=

A

Σ

A

T

\begin{aligned} \Sigma^\prime &= cov[x^{\prime}] = E[(x^\prime - E[x^\prime])(x^\prime-E[x^\prime])] \\ &= AE[(x-\mu)(x-\mu)^T]A^T \\ &= A{\Sigma}A^T \end{aligned}

Σ′​=cov[x′]=E[(x′−E[x′])(x′−E[x′])]=AE[(x−μ)(x−μ)T]AT=AΣAT​

多个独立的高斯随机变量的线性组合仍是高斯随机变量。 假设

x

1

N

(

μ

1

,

Σ

1

)

x_1 \sim N(\mu_1,\Sigma_1)

x1​∼N(μ1​,Σ1​);

x

2

N

(

μ

2

,

Σ

2

)

x_2 \sim N(\mu_2,\Sigma_2)

x2​∼N(μ2​,Σ2​) 且

x

=

A

x

1

+

B

x

2

x^\prime = Ax1 + Bx2

x′=Ax1+Bx2,有:

μ

=

E

[

x

]

=

A

μ

1

+

B

μ

2

Σ

=

c

o

v

[

x

]

=

A

Σ

1

A

T

+

B

Σ

2

B

T

\begin{aligned}\mu^\prime &= E[x^\prime]= A\mu_1 + B\mu_2 \\ \Sigma^\prime &= cov[x^\prime] = A\Sigma_1A^T + B\Sigma_2B^T\end{aligned}

μ′Σ′​=E[x′]=Aμ1​+Bμ2​=cov[x′]=AΣ1​AT+BΣ2​BT​

多元高斯概率密度函数的拆分与组合

多元高斯联合分布可拆分为一个先验分布与条件分布的乘积。(拆分公式) 有

P

(

x

)

=

P

(

x

1

x

2

)

P

(

x

2

)

P(x)=P(x_1|x_2)P(x_2)

P(x)=P(x1​∣x2​)P(x2​),假设该分布为:

x

=

[

(

x

1

x

2

)

]

x = [{x_1 \choose x_2}]

x=[(x2​x1​​)]~

N

(

[

(

μ

1

μ

2

)

]

,

[

Σ

11

Σ

12

Σ

21

Σ

22

]

)

N([{\mu_1 \choose \mu_2}],\begin{bmatrix} \Sigma_{11} & \Sigma_{12} \\ \Sigma_{21} & \Sigma_{22} \end{bmatrix})

N([(μ2​μ1​​)],[Σ11​Σ21​​Σ12​Σ22​​]),那么条件概率密度函数与先验(边缘)概率密度函数分别为:

P

(

x

1

x

2

)

N

(

μ

1

+

Σ

12

Σ

22

1

(

x

2

μ

2

)

,

Σ

11

Σ

12

Σ

22

1

Σ

21

)

P

(

x

2

)

N

(

μ

2

,

Σ

22

)

P(x_1|x_2) \sim N(\mu_1+\Sigma_{12}\Sigma_{22}^{-1}(x_2-\mu_2),\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}) \\ P(x_2) \sim N(\mu_2,\Sigma_{22})

P(x1​∣x2​)∼N(μ1​+Σ12​Σ22−1​(x2​−μ2​),Σ11​−Σ12​Σ22−1​Σ21​)P(x2​)∼N(μ2​,Σ22​) 我们把上式称之为多元高斯联合分布的拆分公式,这个公式是如何来的呢,可以先使用舒尔补求逆,然后化简得到,有时间的话我会出一篇讲边缘化的博客,里面会证明这个式子。总之,我们可以把上式称之为拆分公式。

反之,一个多元高斯联合分布也可以由先验概率和条件概率组合而成。(组合公式) 如果有

P

(

x

2

)

N

(

μ

2

,

Σ

22

)

P(x_2) \sim N(\mu_2,\Sigma_{22})

P(x2​)∼N(μ2​,Σ22​),

P

(

x

1

x

2

)

N

(

H

x

2

,

R

)

P(x_1|x_2) \sim N(Hx_2,R)

P(x1​∣x2​)∼N(Hx2​,R),将两者组成有:

x

=

[

(

x

1

x

2

)

]

N

(

[

(

H

μ

2

μ

2

)

]

,

[

H

Σ

22

H

T

H

Σ

22

Σ

22

H

T

Σ

22

]

)

x=[{x_1\choose x_2}] \sim N([{H\mu_2 \choose \mu_2}],\begin{bmatrix} H\Sigma_{22}H^T & H\Sigma_{22} \\ \Sigma_{22}H^T & \Sigma_{22}\end{bmatrix})

x=[(x2​x1​​)]∼N([(μ2​Hμ2​​)],[HΣ22​HTΣ22​HT​HΣ22​Σ22​​]) 同上,证明可以先不管,但如果你想证也是简单的,我们把上式称之为组合公式。

高斯分布边缘化(Marginalization)

定义:联合概率中,把最终结果中不需要的那些事件合并成其事件的全概率而消失(对离散随机变量用求和得全概率,对连续随机变量用积分得全概率),这称为边缘化(marginalization)。

假设有一个离散的联合分布律如下图表示: x的边缘概率可表示为:

p

X

(

x

i

)

=

j

p

(

x

i

,

y

j

)

p_X(x_i)=\sum\limits_{j} p(x_i,y_j)

pX​(xi​)=j∑​p(xi​,yj​);y的边缘概率可以表示为:

p

Y

(

y

j

)

=

i

p

(

x

i

,

y

j

)

p_Y(y_j)=\sum\limits_{i} p(x_i,y_j)

pY​(yj​)=i∑​p(xi​,yj​)。 可以看到要求某一变量的边缘概率,要对另一变量进行求和。 那么在连续概率分布(如高斯分布中)呢?可以假设有两个变量

x

1

,

x

2

x_1,x_2

x1​,x2​,我们要求

x

1

x1

x1的边缘分布,实际上就是把

x

2

x_2

x2​边缘化。

x

2

P

(

x

1

,

x

2

)

d

x

2

=

x

2

P

(

x

2

x

1

)

P

(

x

1

)

d

x

2

=

x

2

P

(

x

2

x

1

)

d

x

2

P

(

x

1

)

=

P

(

x

1

)

N

(

μ

1

,

Σ

11

)

\begin{aligned} \int_{x_2}P(x_1,x_2)dx_2 &=\int_{x_2}P(x_2|x_1)P(x_1)dx_2 \\ &=\int_{x_2}P(x_2|x_1)dx_2P(x_1)\\ &= P(x_1) \sim N(\mu_1,\Sigma_{11})\end{aligned}

∫x2​​P(x1​,x2​)dx2​​=∫x2​​P(x2​∣x1​)P(x1​)dx2​=∫x2​​P(x2​∣x1​)dx2​P(x1​)=P(x1​)∼N(μ1​,Σ11​)​ 可以看到,对于高斯分布的边缘化,我们只需要在协方差矩阵将无关的变量(对应变量的行和列)去除掉即可。

N

(

μ

1

,

Σ

11

)

=

N

(

[

(

μ

1

μ

2

)

]

,

[

Σ

11

Σ

12

Σ

21

Σ

22

]

)

N(\mu_1,\Sigma_{11}) = N([{\mu_1 \choose \sout{\mu_2}}], \begin{bmatrix} \Sigma_{11} & \sout{\Sigma_{12}} \\ \sout{\Sigma_{21}} & \sout{\Sigma_{22}}\end{bmatrix})

N(μ1​,Σ11​)=N([(μ2​​μ1​​)],[Σ11​Σ21​​​Σ12​​Σ22​​​])

高斯分布的独立性与不相关性

由上述高斯分布的拆分公式中,有

P

(

x

)

=

P

(

x

1

x

2

)

P

(

x

2

)

P(x)=P(x_1|x_2)P(x_2)

P(x)=P(x1​∣x2​)P(x2​)。 右式分别满足以下分布:

P

(

x

1

x

2

)

N

(

μ

1

+

Σ

12

Σ

22

1

(

x

2

μ

2

)

,

Σ

11

Σ

12

Σ

22

1

Σ

21

)

P

(

x

2

)

N

(

μ

2

,

Σ

22

)

P(x_1|x_2) \sim N(\mu_1+\Sigma_{12}\Sigma_{22}^{-1}(x_2-\mu_2),\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}) \\ P(x_2) \sim N(\mu_2,\Sigma_{22})

P(x1​∣x2​)∼N(μ1​+Σ12​Σ22−1​(x2​−μ2​),Σ11​−Σ12​Σ22−1​Σ21​)P(x2​)∼N(μ2​,Σ22​)

假设

x

1

x_1

x1​和

x

2

x_2

x2​不相关,那么有:

Σ

12

=

0

\Sigma_{12} = 0

Σ12​=0 ,两者协方差为0。

Σ

12

=

E

[

(

x

1

μ

1

)

(

x

2

μ

2

)

]

=

E

[

x

1

x

2

T

]

E

[

x

1

]

E

[

x

2

]

T

=

0

\Sigma_{12}=E[(x_1-\mu_1)(x_2-\mu_2)]=E[x_1x_2^T] - E[x_1]E[x_2]^T=0

Σ12​=E[(x1​−μ1​)(x2​−μ2​)]=E[x1​x2T​]−E[x1​]E[x2​]T=0

根据独立的概念,

E

(

x

1

x

2

)

=

E

(

x

1

)

E

(

x

2

)

E(x_1x_2)=E(x_1)E(x_2)

E(x1​x2​)=E(x1​)E(x2​),该式和上式显然一样。

说明了,高斯分布的变量的不相关即为变量独立。

好了,关于高斯分布就告一段落。

如果我的文章对你有帮助,欢迎关注,点赞,评论。

参考: https://games-cn.org/games-webinar-20180426-43/

公司的银行结算卡是做什么用的呢?
1、STVD和STVP的使用及串口烧写程序教程