マーケティングに活用できる分析手法のひとつ、相関係数についてご紹介します。
相関係数とは
天候と来客数が連動しているかを調査する手法の1つとして、「相関係数」を用いる方法があります。
相関係数はExcelの「CORREL関数(コリレーション関数)」を使用することで簡単に算出可能です
この関数は、2つのデータ間(XとY)の相関係数を返します。
端的に表現すると、「XとYがどの程度連動しているかを表す数値」です。
例えば「クラス全員の身長と体重がどの程度連動しているか」や、「勉強時間とテストの点数がどの程度連動しているか」など、2つのデータ間にどの程度の相関性があるかを、0.0〜1.0の値で表します(運動量と体重のように反比例するデータの場合は負の相関があると言い、0.0〜-1.0の値で表されます)。
-1.0 ~ -0.7 強い負の相関
-0.7 ~ -0.4 負の相関
-0.4 ~ -0.2 弱い負の相関
-0.2 ~ 0.2 ほぼ相関なし
0.2 ~ 0.4 弱い正の相関
0.4 ~ 0.7 正の相関
0.7~ 1.0 強い正の相関
CORREL関数の使い方
CORREL関数はXとY、2組のデータの相関係数を求める関数です。今回はXを「日別の最高気温」、Yを「日別の客数」とし、この2組のデータの相関係数を求めます。
解説ファイル内のデータでは、Xの範囲が「B2:B16」、Yの範囲が「C2:C16」となるため、任意のセル(解説ファイルの場合「G2」)に「=CORREL(B2:B16,C2:C16)」と入力します。
その結果、0.93…という数値が算出され、この値がXとYの相関係数となります。相関係数は、一般的には0.7を超えると連動しているとみなしても良いと考えられており、今回の問題であれば、相関(連動)していると言えます。
注意点1:外れ値について
相関係数を求める際、特に注意が必要な点として疑似相関と外れ値が挙げられます。外れ値が含まれているとデータの精度が下がり、誤った解釈をしてしまう可能性があります。
今回の問題では「客数に大きな影響を与える休日や、その他の外れ値を生む要因は考慮しないものとする」とし、外れ値となるような数値が存在しないデータとなっていましたが、実際には以下のような状況が発生する可能性があります。
例えば、ある土曜日は他の日と比べて気温が非常に低かったとします。
同時に、この日は休日と店頭イベントが重なり、来客数が通常よりも遥かに多かったとします。
この場合、「最高気温が上がると客数が増える」という相関に反しており、この1日の影響で気温と客数の相関係数が低く算出され、相関がないという結論になりかねません。
このように他の値から大きく外れた値を「外れ値」と呼び、分析を実施する際は予め外れ値を認識し、これをどう扱うかを決めておく必要があります。
注意2:擬似相関について
相関関係とは「一方の値の大きさと、もう一方の値の大きさに関連性がある」関係のことを指します。
例えば「Aが多いとき、Bも多い傾向がある」という場合、「AとBは正の相関関係がある」と言えます。
相関関係があるかどうかは相関係数を算出することで分かりますが、これが因果関係を証明するものではない点に注意が必要です。
時には、二つの変数に因果関係がないのに、見えない要因(潜伏変数)によって因果関係があるかのように推測される場合があります。
例えば、「交番の数が多い地域ほど、犯罪件数が多い」という傾向が確認できるデータがあったとします。
本来であれば、地域に交番が多いほど犯罪への抑止力となるため犯罪件数は少なくなるはずですが、実際に調べてみると「交番の数が多い地域ほど、犯罪件数も多い」という相関関係が見つかるケースもあります。
この場合、「交番が多い」から「犯罪件数が多い」という因果関係があるわけではなく、「逆の因果関係」の可能性が考えられます。つまり「犯罪件数が多い地域」だから「交番が多く設置された」となります。
これに気付かず誤った解釈をしてしまい、「犯罪件数を減らすために交番の数を減らす」という意思決定をしてしまうと、意図に反して犯罪が増えてしまう可能性があります。
相関関係と因果関係の違いに関する詳細はこちらもご参考ください。
参考記事
https://atarimae.biz/archives/7374
http://takehiko-i-hayashi.hatenablog.com/entry/20130418/1366232166
POINT
・相関係数とは、XとYがどの程度連動しているかを表す数値
・相関係数はExcelのCORREL関数で簡単に算出可能
・相関係数を求める際は、外れ値と擬似相関に注意しましょう
コメント