■相関係数と回帰直線 (簡易版はこちら)

 相関係数:r(correlation coefficient)は2つの変数間の相関すなわち類似性を示す指標で、−1から+1までの値です。 この値が正のときは「正の相関」、負のときは「負の相関」があると呼びます。 相関係数が0に近いときは2つの変数間の相関は弱いことになります。

 また、両者の関係を直線で近似したものを回帰直線と呼びますが、
  ・xからyへの回帰直線: y = a1*x + b1
  ・yからxへの回帰直線: x = a2*y + b2
は一般に異なります。
 両回帰直線は平均点(xm, ym)を通ります。

 下の画面にデータを打ち込んでみて下さい。相関係数と回帰直線が表示されます。

相関係数(r)および回帰直線の計算式は下記のとおりです。
・データを(x1,y1), (x2,y2), .., (xn,yn) とする。
・平均
  xm = Σxi/n
  ym = Σyi/n
・分散、標準偏差
  xの標準偏差 sx = sqrt[Σ(xi-xm)2/n]
  yの標準偏差 sy = sqrt[Σ(yi-ym)2/n]
  x,yの共分散 sxy = Σ(xi-xm)(yi-ym)/n
・相関係数 R
  R = sxy/(sx・sy)
・xからyへの回帰直線: y = a1*x + b1
  a1 = sxy/sx2
  b1 = ym - a1・xm
・yからxへの回帰直線: x = a2*y + b2 [ -> y = (1/a2)x - (b2/a2) ]
  a2 = sxy/sy2
  b2 = xm - a2・ym
相関係数の値はなぜ [ -1 〜 +1 ] の範囲か(証明)

ホーム