Think Outside the Box

自分のメモのために。

単回帰モデルについて考える

単回帰モデルについて

説明変数X と目的変数yに対して、以下のような線型モデルを考える。 最も目的変数y\hat{y}が近似できるような回帰係数 aを求める。 bは定数項で切片と呼ばれる。

 \hat{y} = ax + b

回帰係数の求め方

回帰係数を求めるためには、最小二乗法を利用する。 なお、誤差項が以下の3つの性質を満たしていて、

  • 不偏性:  E(\epsilon) = 0
  • 等分散性:  V(\epsilon) = \sigma^{2}
  • 無相関性:  Cov(\epsilon_i, \epsilon_j) = 0 (i neq j)

かつ、誤差の分布が正規分布出会った時のみ、最小二乗法を使って最も当てはまりの良い bを求めることができる。

最小二乗法による回帰係数の推定

誤差項は、

 \epsilon_i = y_i - (ax_i + b)

と表せる。誤差の総和

 S = \sum {\epsilon_i}^2 = \sum{{(y_i - (ax_i + b))}^2}

を最小にするような、aとbを求めたい。 Sを最小化するような \hat{a}, \hat{b}を求めるために、

\frac{\partial S}{\partial b}  = -2 \sum(y_i - ax_i - b)  = 0 \frac{\partial S}{\partial a}  = -2 \sum(y_i - ax_i - b)X_i  = 0

ここから導き出せる正規方程式を解くことで、

  • {\displaystyle \hat{a} = \frac{\sum(x_i - \bar{x})(y_i-\bar{y})}{\sum{{(x_i - \bar{x})}^2}}}
  • {\displaystyle \hat{b} = \bar{y} - \hat{a}\bar{x}}

回帰係数が導き出せる。

また、  \hat{e_i} = y_i - \hat{y_i} は、回帰残差と呼ばれて、xの変数と切片を使っても説明できていない部分となる。

モデルの当てはまりを表す決定係数

変数xがどの程度yを説明しているのかは、モデルの妥当性・有効性を考える上で重要。 この当てはまりの良さを表す基準として、決定係数が使われる。 y_iのバラツキの総和は  \sum{{(y_i - \bar{y})}^2} で表せる。

これは以下のように

 \sum{{(y_i - \bar{y})}^2} = \sum{{(\hat{y_i}-\bar{y})}^2} + \sum{{\hat{e_i}}^2}

(全変動(総平方和) = 回帰変動(回帰平方和) + 残差変動(残差平方和))

と分解することができる。

イメージはこんな感じ(引用:https://bellcurve.jp/statistics/course/9706.html) f:id:tngwnaho:20190411143557p:plain

決定係数の式は、

 {\displaystyle {R}^2 = 1 - \frac{ \sum{{\hat{e_i}}^2}}{\sum{{(y_i - \bar{y})}^2} } = \frac{\sum{{(\hat{y_i}-\bar{y})}^2}}{\sum{{(y_i - \bar{y})}^2}}}

つまり、「全変動のうち回帰変動がどれくらい多いか = 残差変動がどれくらい少ないか」を表すのが決定係数。

なお、決定係数の正の平方根は「相関係数」になる。

偏回帰係数の検定

参考: https://bellcurve.jp/statistics/course/9702.html

 \hat{a},  \hat{b} の値をもとに、母集団の偏回帰係数 a, bについての色々な仮説を検定する方法を考える。 そのために、偏回帰係数の標本分布を考える。 標本分布は自由度n-k-1のt分布に従う(ここよくわかってない。n:サンプルサイズ, k:説明変数)  \lambda = 0として、検定したい偏回帰係数に意味があるのかないのかを確認する。

帰無仮説 Ho : 偏回帰係数b = \lambda (\lambdaは定数。)

対立仮説:

  • H1:  b \neq \lambda (両側検定)

  • H1:  b  > \lambda (片側検定)

 T-value = \frac{回帰係数-\lambda}{回帰係数の標準誤差(標準偏差の推定量)}

を使って検定を行う。

参考

最尤推定 | Instruction of chemoinformatics by funatsu-lab

自然科学の統計学

27-4. 決定係数と重相関係数 | 統計学の時間 | 統計WEB