决定系数(R2)


一般用可决系数($R^2$)评价线性回归模型对数据的拟合程度。

它可以通过计算观测值 $y$ 和预测值 $\hat{y}$ 之间的相关性来得出。

$$
R^2 = \frac{\sum(\hat{y}{t} - \bar{y})^2}{\sum(y{t}-\bar{y})^2},
$$

反映了回归模型所能解释的被预测变量的变异占被预测变量总变异的比例。

  • 预测值越接近于真实值,$R^2$ 则会越接近于1。
  • 相反,若预测值和真实值不相关,则 $R^2=0$

但是仅仅利用 $R^2$ 来衡量模型是远远不够的。因为当增加解释变量的个数时,$R^2$ 值将会不断增加,但这并不意味着更好的模型效果。

采用调整的可决系数可以解决以上问题:

$$
\bar{R}^2 = 1-(1-R^2)\frac{T-1}{T-k-1},
$$

其中,T 是观测点的个数,k 是预测变量的个数。


Author: ahmatjan
Reprint policy: All articles in this blog are used except for special statements CC BY 4.0 reprint polocy. If reproduced, please indicate source ahmatjan !
  TOC