Think Outside the Box

自分のメモのために。

単回帰モデルについて考える

単回帰モデルについて

説明変数X と目的変数yに対して、以下のような線型モデルを考える。最も目的変数 $y$ と $\hat{y}$ が近似できるような回帰係数 $a$ を求める。 $b$ は定数項で切片と呼ばれる。

$\hat{y} = ax + b$

回帰係数の求め方

回帰係数を求めるためには、最小二乗法を利用する。なお、誤差項が以下の３つの性質を満たしていて、

不偏性: $E(\epsilon) = 0$
等分散性: $V(\epsilon) = \sigma^{2}$
無相関性: $Cov(\epsilon_i, \epsilon_j) = 0 (i neq j)$

かつ、誤差の分布が正規分布出会った時のみ、最小二乗法を使って最も当てはまりの良い $b$ を求めることができる。

最小二乗法による回帰係数の推定

誤差項は、

$\epsilon_i = y_i - (ax_i + b)$

と表せる。誤差の総和

$S = \sum {\epsilon_i}^2 = \sum{{(y_i - (ax_i + b))}^2}$

を最小にするような、aとbを求めたい。 Sを最小化するような $\hat{a}$ , $\hat{b}$ を求めるために、

$\frac{\partial S}{\partial b} = -2 \sum(y_i - ax_i - b) = 0$ $\frac{\partial S}{\partial a} = -2 \sum(y_i - ax_i - b)X_i = 0$

ここから導き出せる正規方程式を解くことで、

$\hat{a} = \frac{\sum(x_i - \bar{x})(y_i-\bar{y})}{\sum{{(x_i - \bar{x})}^2}}$
$\hat{b} = \bar{y} - \hat{a}\bar{x}$

回帰係数が導き出せる。

また、 $\hat{e_i} = y_i - \hat{y_i}$ は、回帰残差と呼ばれて、xの変数と切片を使っても説明できていない部分となる。

モデルの当てはまりを表す決定係数

変数xがどの程度yを説明しているのかは、モデルの妥当性・有効性を考える上で重要。この当てはまりの良さを表す基準として、決定係数が使われる。 y_iのバラツキの総和は $\sum{{(y_i - \bar{y})}^2}$ で表せる。

これは以下のように

$\sum{{(y_i - \bar{y})}^2} = \sum{{(\hat{y_i}-\bar{y})}^2} + \sum{{\hat{e_i}}^2}$

(全変動(総平方和) ＝回帰変動(回帰平方和) ＋残差変動(残差平方和))

と分解することができる。

イメージはこんな感じ(引用：https://bellcurve.jp/statistics/course/9706.html) f:id:tngwnaho:20190411143557p:plain

決定係数の式は、

${R}^2 = 1 - \frac{ \sum{{\hat{e_i}}^2}}{\sum{{(y_i - \bar{y})}^2} } = \frac{\sum{{(\hat{y_i}-\bar{y})}^2}}{\sum{{(y_i - \bar{y})}^2}}$

つまり、「全変動のうち回帰変動がどれくらい多いか = 残差変動がどれくらい少ないか」を表すのが決定係数。

なお、決定係数の正の平方根は「相関係数」になる。

偏回帰係数の検定

参考： https://bellcurve.jp/statistics/course/9702.html

$\hat{a}$ ,　 $\hat{b}$ の値をもとに、母集団の偏回帰係数 $a, b$ についての色々な仮説を検定する方法を考える。そのために、偏回帰係数の標本分布を考える。標本分布は自由度n-k-1のt分布に従う(ここよくわかってない。n:サンプルサイズ, k:説明変数) $\lambda = 0$ として、検定したい偏回帰係数に意味があるのかないのかを確認する。

帰無仮説 Ho ： $偏回帰係数b = \lambda (\lambdaは定数。)$

対立仮説：

H1: $b \neq \lambda$ (両側検定)
H1: $b > \lambda$ (片側検定)

$T-value = \frac{回帰係数-\lambda}{回帰係数の標準誤差(標準偏差の推定量)}$

を使って検定を行う。

参考

最尤推定 | Instruction of chemoinformatics by funatsu-lab

自然科学の統計学

27-4. 決定係数と重相関係数 | 統計学の時間 | 統計WEB