単回帰モデルについて考える
単回帰モデルについて
説明変数X と目的変数yに対して、以下のような線型モデルを考える。 最も目的変数とが近似できるような回帰係数を求める。は定数項で切片と呼ばれる。
回帰係数の求め方
回帰係数を求めるためには、最小二乗法を利用する。 なお、誤差項が以下の3つの性質を満たしていて、
- 不偏性:
- 等分散性:
- 無相関性:
かつ、誤差の分布が正規分布出会った時のみ、最小二乗法を使って最も当てはまりの良いを求めることができる。
最小二乗法による回帰係数の推定
誤差項は、
と表せる。誤差の総和
を最小にするような、aとbを求めたい。 Sを最小化するような,を求めるために、
ここから導き出せる正規方程式を解くことで、
回帰係数が導き出せる。
また、 は、回帰残差と呼ばれて、xの変数と切片を使っても説明できていない部分となる。
モデルの当てはまりを表す決定係数
変数xがどの程度yを説明しているのかは、モデルの妥当性・有効性を考える上で重要。 この当てはまりの良さを表す基準として、決定係数が使われる。 y_iのバラツキの総和は で表せる。
これは以下のように
(全変動(総平方和) = 回帰変動(回帰平方和) + 残差変動(残差平方和))
と分解することができる。
イメージはこんな感じ(引用:https://bellcurve.jp/statistics/course/9706.html)
決定係数の式は、
つまり、「全変動のうち回帰変動がどれくらい多いか = 残差変動がどれくらい少ないか」を表すのが決定係数。
偏回帰係数の検定
参考: https://bellcurve.jp/statistics/course/9702.html
, の値をもとに、母集団の偏回帰係数についての色々な仮説を検定する方法を考える。 そのために、偏回帰係数の標本分布を考える。 標本分布は自由度n-k-1のt分布に従う(ここよくわかってない。n:サンプルサイズ, k:説明変数) として、検定したい偏回帰係数に意味があるのかないのかを確認する。
帰無仮説 Ho :
対立仮説:
H1: (両側検定)
H1: (片側検定)
を使って検定を行う。