相関係数を考える
統計学入門を少しずつ復習しながら、データを正しく扱えるように勉強していく. 自分用めも。
ピアソンの積率相関係数
概要
相関と言われればこれのことが多い。 xとyの相関係数は、
で表せる。
分子の式/nをすると、共分散を表すことになる。 定義より、分母は常に正。分子の共分散の符号によって正の相関があるか、負の相関があるのか決まる。
積率相関係数の数式のイメージを考える
こちらのデータを利用して、x:身長、y:体重の相関を求めたい。(黒い線は各変数の平均を雑に表す)
分子について バブル図を使って、身長と体重をプロットし、バブルの大きさで分子の絶対値の大きさを表した。 各変数の平均から離れれば離れるほど、分子の絶対値は大きくなる。 (分子が負の場合は白丸、正の場合は青になっている)
各変数の平均を境目とした座標で、分子が正となるデータ・負となるデータに別れる
分母について バブル図を使って、身長と体重をプロットし、バブルの大きさで分母の値の大きさを表した。 各項は、各変数の平均からどれくらい距離があるかを表す。ここは各変数の値を正規化をするための項だとわかる。
正規分布に従う変数に対する相関を求める場合のみ利用可能
相関係数を求めたい変数が正規分布にしたがっている時のみ、積率相関係数を使える。 正規分布を仮定しているから、分母の標準化の式になっているのか..
正規分布に従わない場合・特定の分布を仮定しない場合は、順位相関係数などを考えた方が良いらしい。 参考:https://sleepy-yoshi.hatenablog.com/entry/20110325/p1
スピアマンの順位相関係数
概要
順位が全く同じなら相関係数が1となり、順位が全く逆なら相関係数が-1となる。 順序尺度の変数でも利用できるのかというと、そうではない。 2変数の最小値・最大値が一致しているような順位を表している変数に対して適用可能。
なぜその式なのか?
導出式はこちらのPDFに書いていそう.. http://ebsa.ism.ac.jp/ebooks/sites/default/files/ebook/1321/pdf/ch01-05.pdf
ケンドールの順位相関係数
概要
観測対象の対を考えて、カウントしてそれを相関係数として使う。
Step1: 全データから2つずつデータを取り出した組み合わせを作る
Step2:以下の基準で各組み合わせに+1, -1を考えていく
かつ 、あるいは、 かつ のときは+1、
かつ 、あるいは、 かつ のときは-1、
Step3: +1の組み合わせ数をGとし、-1の組み合わせ数をHとする
Step4: 全組み合わせ数のうち、G-Hの差がどれくらいだったかを表す相関係数を求める
その他の相関係数
順序尺度と順序尺度の相関係数:ポリコリック相関係数
参考: カテゴリカルデータの相関係数
順序尺度と連続尺度の相関係数
- 「多分系列相関係数」とも言われる。
- 順序尺度のカテゴリ数が2の時は「シリアル相関」、3以上の時に「ポリシリアル相関」と呼ばれる。
- イメージとしては、ロジスティック回帰とかを適用するような問題のときに利用できそう。
- これも同じく"相関係数が与えられた時にその変数がx,yとなる確率" を最大化するような相関係数を最尤推定で求めている。
参考: カテゴリカルデータの相関係数