通用几个统计值
- 均值
The sum divided by the count.
数据集中程度的一个统计量,目的是确定一组数据的均衡点。
$$
\mu_x=\bar{X}=\frac{\sum_{i=1}^{n}x_i}{n}=\frac{x_1+x_2+…x_n}{n}
$$
- 方差
均值作为期望,各个误差之平方。
方差是用来度量一组数据的离散程度。
度量随机变量和其期望(即均值)之间的偏离程度。(换句话说,随机变量与均值的联合变化程度。相当于 $Cov(X, X)$)
$$
Var(X)=\sigma^2_x;=E[(X-\mu_x)(X-\mu_x)]=E[(X-\mu_x)^2]
$$
方差越大,数据越离散。
- 协方差
两个随机变量和其期望(即均值)之间的偏离程度相乘。
在概率论和统计学中,协方差(Covariance)用于衡量两个随机变量的联合变化程度。而方差是协方差的一种特殊情况,即变量与自身的协方差。
$$
cov(X,Y)=E[(X-\mu_x)(Y-\mu_y)]=E(X·Y)-\mu_x*\mu_y
$$
$$
\sigma^2{xy}=\frac{\sum(X-\bar{X})(Y-\bar{Y})}{n}
$$
- 协方差的值如果为正值,则说明两者是正相关的(从协方差可以引出“相关系数”的定义);
- 结果为负值就说明负相关的;
- 如果为0,也是就是统计上说的相互独立。
如果$X$ 与 $Y$ 是统计独立的,那么二者之间的协方差就是0,因为
$$
cov(X,Y)=E(X·Y)-\mu_x\mu_y=E(X)E(Y)-\mu_x\mu_y=\mu_x\mu_y-\mu_x\mu_y=0
$$
- 相关系数
协方差和方差(两个变量标差相乘)的比值。
研究变量之间线性相关程度的量。
变量 $X$ 和自身的相关系数为 1
$$
r(X,X)=\frac{Cov(X,X)}{\sigma^2_x}=\frac{\sigma^2_x}{\sigma^2_x}=1
$$
变量 $X$ 和 $Y$ 自身的相关系数为
$$
r(X,Y)=\frac{Cov(X,Y)}{\sigma_x*\sigma_y}=\frac{\sum(x-\mu_x)(y-\mu_y)}{\sqrt{\sum{(x-\mu_x)^2}}\sqrt{\sum{(y-\mu_y)^2}}}
$$
- 相关系数的绝对值越大,相关性越强(相关系数越接近于1或-1,相关度越强);
- 相关系数越接近于0,相关度越弱。
时间序列相关的几个统计值
- 自协方差
信号与其经过时间平移的信号之间的协方差。
$$
cov(X_t,X_{t-k})=E[(X_t-\mu_x)(X_{t-k}-\mu_x)]=\frac{1}{n}\sum_{t=k+1}^n(X_t-\bar{X})(X_{t-k}-\bar{X})
$$
可以认为自协方差是某个信号与其自身经过一定时间平移之后的相似性
- 自相关系数(ACF)
Autocorrelation Formula.
协方差和方差的比值。其中,方差统计 $t \in [1, n]$,协方差统计 $t \in [k+1, n]$。
$$
ACF(k)=r_k=\frac{\sum_{t=k+1}^n(X_t-\bar{X})(X_{t-k}-\bar{X})}{\sum_{t=1}^n(X_t-\bar{X})^2}
$$
同一事件在两个不同时期之间的相关程度(形象的讲就是度量自己过去的行为对自己现在的影响)。
- 偏自相关系数(PACF)
根据 ACF 求出滞后k自相关系数 时,实际上得到并不是$X_t$ 与$X_{t-k}$ 之间单纯的相关关系。
因为 $X_t$ 同时还会受到中间 $k-1$ 个随机变量 $X_{t-1},X_{t-2},X_{t-3},…, X_{t-k+1}$ 的影响,而这$k-1$ 个随机变量又都和 $X_{t-k}$ 具有相关关系,所以自相关系数里面实际掺杂了其他变量对 $X_t$ 与 $X_{t-k}$ 的影响。
为了能单纯测度 $X_{t-k}$ 对 $X_t$ 的影响,引进偏自相关系数(PACF)的概念。