之前我们说过,卡尔曼滤波仅利用被估计量的均值和协方差矩阵进行参数的估计。由于当进行线性和拟线性变换时,均值和协方差估计可以有效地保持,卡尔曼滤波实现了实时估计。但是我们也许需要重新思索一下,均值和协方差矩阵究竟是什么,为什么我们可以做到这个,背后的哲学思想是什么?让我们先回到均值和协方差矩阵的初始定义。
1.什么是数学期望(均值)和协方差矩阵
在概率论和统计学中,数学期望(或均值,亦简称期望)是试验中每次可能结果的概率乘以其结果的总和,是最基本的数学特征之一。它反映随机变量平均取值的大小。需要注意的是,期望值并不一定等同于常识中的“期望”——“期望值”也许与每一个结果都不相等。期望值是该变量输出值的平均数。期望值并不一定包含于变量的输出值集合里。大数定律表明,随着重复次数接近无穷大,数值的算术平均值几乎肯定地收敛于期望值。
下面重点说一下协方差矩阵:协方差矩阵分为自协方差矩阵和互协方差矩阵。
自协方差矩阵描述的是同一个随机向量内部不同分量之间的协方差关系。对于随机向量\(\mathbf{X} =[X_1,X_2,\cdots ,X_n]^T\),其自协方差矩阵是一个对称矩阵,表示每个分量\(X_i\)与其他分量\(X_j\)之间的协方差。
\[
\mathbf{Cov(X,X)} =E[(X-\mu_X )(X-\mu_X )^T]
\]
分析自协方差矩阵的定义,可知自协方差矩阵保留了如下信息:
- 分变量波动(对角线上)。
- “分变量之间相对均值变化”的线性相关性。
- 去中心化的二阶统计量。
互协方差矩阵描述的是两个不同随机向量之间的协方差关系。对于随机向量\(\mathbf{X} =[X_1,X_2,\cdots ,X_n]^T\)和\(\mathbf{Y} =[Y_1,Y_2,\cdots ,Y_n]^T\),互协方差矩阵表示 \(X\)的每个分量\(X_i\)
与\(Y\)的每个分量\(X_i\)之间的协方差。
\mathbf{Cov(X,Y)} =E[(X-\mu_X )(Y-\mu_Y )^T]
\]
分析互协方差矩阵的定义,可知互协方差矩阵保留了如下信息:
- “两个变量相对各自均值变化”的线性相关性。
- 两个变量的交互模式。
- 去中心化的二阶统计量。
我们注意到自协方差矩阵和互协方差矩阵的特点,只保留了“变量相对于均值的变化”的关系,因为是相对于自身均值变化量,因此只有比例项,没有截距项。也就是说自协方差矩阵和互协方差矩阵保留了偏离均值时,各个量之间偏离的线性比例关系。
2.卡尔曼滤波的状态更新方程
\[\hat{x}_k^+=\hat{x}_k^-+K_k(y_k-H_k\hat{x}_k^-)
\]
当这个方程第一次出现时,我们感觉非常的突兀,它突然出现,不知道为什么这样构造。现在我们改写一下它。
\[\hat{x}_k^+-\hat{x}_k^-=K_k(y_k-H_k\hat{x}_k^-)
\]
我们突然茅塞顿开,这反映了一个情况,在我们知道二阶统计量时,我们实际上掌握了Y相对于均值偏移时,X是否也偏移的信息,而上面的式子正好体现了这一点,我们认为当Y相对于均值偏移一定量时,X也应该相对于其均值偏移一定量才合理(前提是互协方差矩阵不是0),毕竟XY有协方差矩阵的关系存在,并且结合协方差矩阵的定义,应该是一个比例关系且没有截距(减去均值相对于去中心化),我们暂时设定这个关系是K。后面的一切便水到渠成了。