2013年4月10日水曜日

共分散と相関係数

2つの変数(ここでは\(x\)と\(y\)とする)の統計値があり、その2つの統計値がどれほど密接に関連しているかを検査するには、相関係数を見ればよい。

その前に、「共分散」という量について考える。
共分散は以下の量で定義する。
\[s_{xy} = \frac{\sum_{i} (x_i - \bar{x})(y_i - \bar{y})}{n}\]
この量は、xが平均より大きい値をとるときにyも平均よりも大きい値をとる傾向にある場合(つまりは正の相関がある場合)に正の値をとる。一方、負の相関が有る場合は、負の値をとる。

でも、共分散の「大きさ」にはあまり意味がない。相関が強いからといって、大きい値になったりするとは限らない。

その理由の一つが、この共分散という量はxとyの単位の積の次元を持つから。例えば変数xが長さに関する量で、その単位を[m]にするか[cm]にするかで、共分散の大きさが変わる。

2つ目の理由が、各変数の値のバラツキ度合いで共分散の大きさも変わること。例えば変数xのばらつきが大きければ\((x_i - \bar{x})\)が大きくなるから、共分散の値も大きくなってしまう。

これらの難点を克服するために、共分散を変数xとyの標準偏差で割ってやろうという発想が生まれる。それが「相関係数 \(r_{xy}\)」だ。つまり、
\[r_{xy}=\frac{s_{xy}}{s_x s_y}\]

ここで、\(s_x\)、\(s_y\)はxとyの標準偏差。

xとyの標準偏差で割ることにより・・・
  • 相関係数は無次元量になり、変数の単位によらず一定の値をとるようになる。
  • 変数x、yの取る値のばらつきの標準偏差を1に正規化することによって、各変数のばらつきに依存しない量になる。
ということで、相関係数が、純粋に変数x、yの相関に依存する量となる。

すばらしい。

(補足1)
相関係数は変数が量的変数の場合に計算できるのだけれど、質的変数である場合は計算できない。この場合、相関度合はクロス集計表を作って相関度合を調べたり、ファイ係数(質に数値を割り当てて無理矢理に相関係数を計算する・・・ようなもの)を計算して調べたりする。

(補足2)
厳密には、上記で定義した相関係数は「ピアソンの積率相関係数」と呼ぶ。他にも相関係数の定義があって、例えば「スピアマンの順位相関係数」や「ケンドールの順位相関係数」などがあるらしい。

0 件のコメント:

コメントを投稿