透彻理解：方差、协方差、相关系数、协方差矩阵及其应用

最近看了几篇跨领域特征对齐方面的经典文献，学者们搞了很多花样，如有的提出一阶统计特征对齐，有的提出二阶统计特征对齐，有的学者提出高阶统计特征对齐。

通俗而言，就是在统计特征层面对跨域特征进行对齐，如对齐一阶矩（均值）、二阶矩（方差）、三阶矩（偏度）。为此，本文系统的梳理了一遍概率与统计相关的知识点。

1. 方差

随机变量 $X$ 与均值 $E [X]$ 的偏离程度可以表示为 $∣ X - E [X] ∣$ ，为了便于计算考虑 $X-E[X])^2$ 。由于 $X-E[X])^2$ 任是一个随机变量，因此其均值 $E[(X-E[X])^2]$ 可以反映随机变量 $X$ 的波动程度，记为
$V(X)=E[(X-E[X])^2]$

注：本文仅分析离散型随机变量。

总体方差

$\sigma^2=\frac{1}{N}\sum_{i=1}^{N}(x_i-\mu)^2$

式中， $\sigma^2$ 表示总体方差， $N$ 表示总体样本的个数， $\mu$ 表示总体均值。

样本方差

在实际生活中，总体样本是未知的，一般是采用抽样的方法获得部分样本，因为采用无偏估计可以修正样本估计的偏差，计算公式如下：
$S^2=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2$
式中， $S^2$ 表示样本方差， $n$ 表示抽样的样本个数（观测样本个数）， $\bar{x}$ 表示观测的样本均值。

在后续的方差计算中，均是默认采用无偏估计，且在python的一些包中也均采用的是无偏估计。

编程实现：

x = torch.randn(10)

mu = torch.mean(x)
var = torch.sum((x-mu)*(x-mu)) / (10-1) # tensor(0.6017)

内置函数torch.var：

var = torch.var(x) # tensor(0.6017)

2. 协方差

用于描述二维随机变量 $(X, Y)$ 之间的相互关系，定义为
$Y)=E[(X-\mu_{X})(Y-\mu_{Y})]$
式中， $\mu_{X},\mu_{Y}$ 分别表示随机变量 $X 、 Y$ 的期望。

方差用于描述单个随机变量的波动程度，协方差则是度量二维随机变量的相关程度。当 $X = Y$ ，则协方差就退化为方差，因此可以认为协方差是方差的一个特例。

性质

关于协方差的一些性质均可以由期望 $E [X]$ 和方差 $V [X]$ 的性质推导得来，毕竟协方差也是方差的一种。因此，下面仅列举了协方差的结论，推导省略。

$C o v (X, Y) > 0$ ：随机变量 $X$ 和 $Y$ 正相关。
$C o v (X, Y) < 0$ ：随机变量 $X$ 和 $Y$ 负相关。
$C o v (X, Y) = 0$ ：随机变量 $X$ 和 $Y$ 不相关。
$C o v (X, Y) = C o v (Y, X)$
$C o v (X, X) = V (X)$
$\times Cov(X,Y)$
$C o v (X + a, Y + b) = C o v (X, Y)$
$C o v (X, Y) = E [X Y] - E [X] E [Y]$

编程实现：

x = torch.randn(10)
mu_x = torch.mean(x)
y = torch.randn(10)
mu_y = torch.mean(y)

cov_xy = torch.sum((x-mu_x)*(y-mu_y)) / (10-1) # tensor(-0.3363)

内置函数torch.cov：

xy = torch.stack((x, y)) # size (2, 10)

cov_matrix = torch.cov(xy) # size (2, 2) 
cov_xy = cov_matrix[0, 1]  # tensor(-0.3363)

由于torch.cov返回的是协方差矩阵，所以对角线上的是方差，非对角线上的是协方差。（见第4节的分析）

3. 相关系数

协方差数值大小并不能反应相互关系的强弱，如 $C o v (X, Y)$ 和 $C o v (a X, bY)$ 两者的协方差值相差 $ab$ 倍，但是他们分布趋势几乎一样。因此，无法直接通过协方差值的大小来判断两个随机变量的分布关系。

$Cov(aX,bY)=ab\times Cov(X,Y)$

相关系数通过对随机变量进行标准化处理，可以消除这一干扰，统一度量范围，记为
$\rho_{XY}=\frac{Cov(X,Y)}{\sigma_X \sigma_Y}$
式中， $\rho_{XY}$ 记为相关系数， $\sigma_X$ 表示随机变量 $X$ 的标准差（ $\sigma_X=\sqrt{V[X]}$ ）。

公式推导

记随机变量 $X 、 Y$ 的期望和标准差分别为 $\mu_X,\mu_Y,\sigma_X,\sigma_Y$ ，标准化处理如下
$\widetilde{X}=\frac{X-\mu_X}{\sigma_X},\ \widetilde{Y}=\frac{Y-\mu_Y}{\sigma_Y}$
所以归一化后的随机变量 $\tilde{X}、\tilde{Y}$ 协方差为
$\begin{align*} Cov(\tilde{X},\tilde{Y}) &= Cov(\frac{X-\mu_X}{\sigma_X},\frac{Y-\mu_Y}{\sigma_Y}) \\ &= \frac{Cov(X-\mu_X, Y-\mu_Y)}{\sigma_X \sigma_Y} \\ &= \frac{Cov(X, Y)}{\sigma_X \sigma_Y} \\ &= \rho_{XY} \end{align*}$
所以，相关系数可以看做是标准化变量的协方差。

性质

1）不受缩放比例的影响。

设 $Z = a X, W = bY$ ，则随机变量 $Z, W$ 的相关系数为
$\begin{align*} \rho_{ZW} &= \frac{Cov(Z,W)}{\sigma_Z \sigma_W} \\ &= \frac{Cov(aX,bY)}{\sqrt{V[aX]} \sqrt{V[bY]}} \\ &= \frac{abCov(X,Y)}{\sqrt{a^2V[X]} \sqrt{b^2V[Y]}} \\ &= \rho_{XY} \end{align*}$

2）不受随机变量加减的影响。

设 $Z = X + a, W = Y + b$ ，则随机变量 $Z, W$ 的相关系数为
$\begin{align*} \rho_{ZW} &= \frac{Cov(Z,W)}{\sigma_Z \sigma_W} \\ &= \frac{Cov(X+a,Y+b)}{\sqrt{V[X+a]} \sqrt{V[Y+b]}} \\ &= \frac{Cov(X,Y)}{\sqrt{V[X]} \sqrt{V[Y]}} \\ &= \rho_{XY} \end{align*}$

编程实现：

x = torch.randn(10)
mu_x = torch.mean(x)

y = torch.randn(10)
mu_y = torch.mean(y)

cov_xy = torch.sum((x-mu_x)*(y-mu_y)) / (10-1) # xy协方差
x_std = torch.std(x) # x的标准差
y_std = torch.std(y) # y的标准差

r_xy = cov_xy / (x_std * y_std) # tensor(0.1423)

内置函数torch.corrcoef：

xy = torch.stack((x, y)) # size (2, 10)
r_matrix = torch.corrcoef(xy) # size (2,2), 对角线值全为1
r_xy = r_matrix[0,1] # tensor(0.1423)

4. 协方差矩阵

协方差是计算两个随机变量的相关性，协方差矩阵是计算三个及以上随机变量的相关性。假设有三个随机变量 $X_1,X_2,X_3$ ，则对应的协方差矩阵一览表为

随机变量	$X_1$	$X_2$	$X_3$
$X_1$	$Cov(X_1,X_1)$	$Cov(X_1,X_2)$	$Cov(X_1,X_3)$
$X_2$	$Cov(X_2,X_1)$	$Cov(X_2,X_2)$	$Cov(X_2,X_3)$
$X_3$	$Cov(X_3,X_1)$	$Cov(X_3,X_2)$	$Cov(X_3,X_3)$

将上述一览表写成协方差矩阵的形式
$\Sigma= \begin{bmatrix} V(X_1) & Cov(X_1,X_2) & Cov(X_1, X_3) \\ Cov(X_2, X_1) & V(X_2) & Cov(X_2, X_3) \\ Cov(X_3, X_1) & Cov(X_3,X_2) & V(X_3) \end{bmatrix} _{3\times 3}$
式中， $\Sigma$ 表示协方差矩阵， $V (X)$ 表示随机变量的方差， $V (X) = C o v (X, X)$ 。

一般而言， $\sigma^2$ 表示方差，大写的*\Sigma*表示协方差矩阵 $\Sigma$ 。

为了提高代码的效率，一般采用向量化编程思想计算多个随机变量的协方差矩阵 $\Sigma$
$\Sigma = E[(\bold{X}-\boldsymbol{\mu})(\bold{X}-\boldsymbol{\mu})^T]$
式中， $\bold{X}\in \R^{d\times n}，\boldsymbol{\mu}\in \R^{d\times 1}, \Sigma \in \R^{d\times d}$ ， $n$ 是观测样本的个数， $d$ 是随机变量的个数， $\boldsymbol{\mu}$ 是均值向量，包含了每个随机变量对应的均值。

补充理解：

$\bold{X}=[X_1、X_2、X_3]$ 包含了三个随机变量。
可以从随机变量 $X_1$ 中取值，这些取出来的值称为观测样本，因为离散型随机变量的取值为有限个值（或可列个值），如从中取出 $n$ 个观测样本 ${x_1,x_2,...,x_n\}$ 。
对应于我们的训练样本则 $n$ 是训练样本个数， $d$ 是每个样本对应的特征维数。

公式推导

下面以随机变量个数为3，推导上述公式成立
$\begin{align*} \bold{X} &= [X_1, X_2, X_3]^T \\ \boldsymbol{\mu} &= E[X]=[\mu_1,\mu_2,\mu_3]^T \\ \bold{X} - \boldsymbol{\mu} &= [X_1-\mu_1, X_2-\mu_2, X_3-\mu_3]^T \end{align*}$
则有
$\begin{align*} & E[(\bold{X} - \boldsymbol{\mu} )(\bold{X} - \boldsymbol{\mu} )^T] \\ &= E[(X_1-\mu_1, X_2-\mu_2, X_3-\mu_3)^T \times (X_1-\mu_1, X_2-\mu_2, X_3-\mu_3)] \\ &= E \begin{bmatrix} \begin{pmatrix} (X_1-\mu_1)^2 & (X_1-\mu_1)(X_2-\mu_2) & (X_1-\mu_1)(X_3-\mu_3) \\ (X_2-\mu_2)(X_1-\mu_1) & (X_2-\mu_2)^2 & (X_2-\mu_2)(X_3-\mu_3) \\ (X_3-\mu_3)(X_1-\mu_1) & (X_3-\mu_3)(X_2-\mu_2) & (X_3-\mu_3)^2 \end{pmatrix} \end{bmatrix} \\ &= \begin{pmatrix} V(X_1) & Cov(X_1,X_2) & Cov(X_1, X_3) \\ Cov(X_2, X_1) & V(X_2) & Cov(X_2, X_3) \\ Cov(X_3, X_1) & Cov(X_3,X_2) & V(X_3) \end{pmatrix} \end{align*}$

编程实现：

S = torch.randn(5, 32) # 5个样本，每个样本特征维度32
X = S.T
mu = X.mean(1).reshape(-1, 1) # 计算X每行的均值

x = (X - mu) @ (X - mu).T
cov_x1 = x / (5-1)  #协方差矩阵

内置函数torch.cov：

cov_x2 = torch.cov(S.T) # 计算协方差矩阵

# 验证cov_x1与cov_x2是否相等
diff = (cov_x1 - cov_x2).sum() # diff=0

需要注意的是，torch.cov(input)的输入input要求大小为 $d\times n$ ， $n$ 代表的是观测样本的个数，也就是训练数据的样本个数； $d$ 代表的是随机变量的个数，可以理解为样本的特征维数。

所以在输入torch.cov之前，需要将训练样本 $\in \R^{n\times d}$ 进行转置。

5. 总结

如果需要评价相关性或相似性，前提是变量之间本身就具有线性关系，否则上述评价方法失效。
期望是一阶矩（一阶原点矩），方差（协方差）是二阶矩（二阶中心距）。
在深度学习相关的方法中，可能会引入上述相关的统计特征对分布偏差进行约束。

参考:

[1]《概率论与数理统计教程》茆诗松等。
[2] 《程序员的数学2 概率统计》平冈和幸等。
[3] wiki-方差