第1回 「相関係数」の求め方はデータタイプによって異なる

 このシリーズでは、アイスタット統計セミナー受講者の「知っているようで、意外に知らなかった」という声をもとに、統計の基礎や分析者が陥りやすい統計の落とし穴などについて解説していきます。< 監修:アイスタット代表取締役会長 菅 民郎 >

目次

相関分析・相関係数

 

 2つの事柄(項目)の関係を知るには、「関数関係」「相関関係」「因果関係」などから判断します。

  • 関数関係 … 2つの変数の片方が決まれば、もう片方も決まる関係
  • 相関関係 … 2つの変数の間に関連が見られる関係(一方が変化すれば他方も変化)
  • 因果関係 … 片方が原因でもう片方が結果の関係

 2つの事柄(項目)の関係を相関係数を用いて調べる方法を総称して相関分析といいます。
相関係数は2つの項目間の関連性がどの程度あるかを数値的な根拠をもって示します。
相関分析には、いろいろな解析手法・相関係数がありますが、測定されたデータタイプが「量的データ(数量)」か「質的データ(カテゴリー)」かによって決まります。

2項目のデータタイプ解析手法相関係数解析例
数量 数量 相関図・散布図単相関係数売上額(日販)× 店舗前交通量
カテゴリー数量カテゴリー別平均相関比血液型 × 売上個数
カテゴリーカテゴリークロス集計クラメール連関係数年代 × 製品使用状況

 相関係数とは何か?と書籍やネットで調べてみると、 「2 種類のデータの関係を示す指標で、値が 1 や -1 に近いほど相関が強く、0 に近いほど相関が弱い」といった「単相関係数(ピアソンの積率相関係数)」の解説が主です。
実はここに落とし穴が!次のように解釈している方は注意が必要です。

NG ① 相関係数は「数量データ」と「数量データ」の単相関係数しか算出できないと思っている

NG ②「データタイプ」を考えずに、Excelや「統計ソフト」の機能で単相関係数を求めてしまう

相関係数は、解析手法「カテゴリー別平均」「クロス集計」でも求めることができます。

下記の「やってみよう①~④」をクリックすると、相関分析・相関係数の活用事例がご覧いただけます。

やってみよう①「相関図・散布図」「単相関係数」を使って、2項目の関係を調べる

 ○○地区のコンビニ10店舗について、1日当りの平均売上額(日販)と、ある日の11時から14時までにおける店舗前通行量(通行人)を調べた。通行人が多い店舗ほど、平均売上額/日が高くなるかを知りたい。

① 解析手法の選定

データタイプが日販は「数量」、通行人は「数量」なので、解析手法は「相関図・散布図」を適用します。
2項目の関係を把握したい場合は、まず散布図を描き、視覚で傾向を明らかにします。
縦軸・横軸にとる項目にはルールがあり、縦軸は「結果」、横軸は「原因」を指定します。
通行人が多いほど日販は大きいことがわかります。

② 相関係数を求める

 「通行人が多いほど日販は大きい」ことがわかりましたが、「通行人」と「日販」は、どの程度の関連があるか(関連性の強弱 )まではわかりません。そこで相関係数を求め、判断します。
データタイプが日販は「数量」、通行人は「数量」なので、求める相関係数は「単相関係数」となります。

日販と通行人との単相関係数を求めると 0.7101 ➡ 通行人と日販は関連(相関)がある と判断します。

③ 結論

「通行人」と「日販」の2項目のデータ間に「関連性がある!」と説得力のある主張ができます。
単相関係数0.7101より、通行人が多い店舗ほど、平均売上額/(日)が高くなる。

やってみよう②「カテゴリー別平均」「相関比」を使って、2項目の関係を調べる

 A社の営業社員12名の売上個数と血液型のデータがある。 血液型によって売上個数が異なるか、また、「血液型」と「売上個数」に関連があるか知りたい。

① 解析手法の選定

データタイプが血液型は「カテゴリー」、売上個数は「数量」のため、解析手法「カテゴリー別平均」を適用します。
2項目の関係を把握したい場合は、まずカテゴリー別の平均値を算出し、視覚で傾向を明らかにします。

  • 売上個数の平均は、B型が28個で最多。A型が6個で最小
  • 血液型によって売上個数の平均値に違いがある

ということがわかります。

② 相関係数を求める

 「血液型によって売上個数の平均値に違いがある」ことがわかりましたが、「血液型」と「売上個数」は、どの程度の関連があるか(関連性の強弱 )まではわかりません。そこで相関係数を求め、判断します。
データタイプが血液型は「カテゴリー」、売上個数は「数量」なので、求める相関係数は「相関比」となります。

血液型と売上個数との相関比を求めると 0.6915 ➡ 血液型と売上個数は関連(相関)がある と判断します。

相関比を算出するにあたっての考え方
  • 相関比は群(血液型)の中のばらつきを見てかたまりが差別化されているかを見る方法です。
    (血液型別と売上個数グラフ
  • 平均値のばらつき度合いで、相関比の値は決まります。
    (血液型別の売上個数の平均グラフ
  • 相関比は0から1の間の値で、値が大きいほど関連性は強くなります。

関連性の強弱の解釈の仕方は、次のとおりです。

相関係数の数値は、「いくつ以上あれば関連性がある」という統計的基準はありません。
下表は一般的な目安です。

③ 結論

「血液型」と「売上個数」の2項目のデータ間に「関連性がある!」と説得力のある主張ができます。
相関比0.6915より、A社の営業社員の血液型と売上個数は関連(相関)がある。

やってみよう③「クロス集計」「クラメール連関係数」を使って、2項目の関係を調べる

Y製品の使用状況と年代のデータをクロス集計した。
Y製品の使用状況は年代によって異なるか、また、「Y製品」と「年代」に関連があるか知りたい。

① 解析手法の選定

 データタイプがY製品の使用状況は「カテゴリー」、年代は「カテゴリー」なので、解析手法は「クロス集計」を適用します。2項目の関係を把握したい場合は、まずクロス集計を行い、クロス集計表から何がいえるのかを把握します。

  • Y製品を使用している割合は20代が77%、30代が86%、40代が91%で、40代で最も多い
  • 年代が高くなるにつれ、使用率が高くなっている

ということがわかります。

② 相関係数を求める

 「年代が高くなるにつれ使用率が高くなっている」ことがわかりましたが、「年代」と「使用状況」は、どの程度の関連があるか(関連性の強弱 )まではわかりません。そこで相関係数を求め、判断します。
データタイプが年代は「カテゴリー」、使用状況は「カテゴリー」なので、求める相関係数は「クラメール連関係数」となります。

年代とY製品使用状況とのクラメール連関係数を求めると 0.149年代と使用状況は関連(相関)がある と判断します。

クラメール連関係数を算出するにあたっての考え方

クラメール連関係数は、行項目と列項目の関連の強さを示す指標です。

クラメール連関係数は0から1の間の値で、値が大きいほど関連性は強くなります。

※クラメール連関係数の求め方は、こちらをご参照ください。

相関係数の数値は、「いくつ以上あれば関連性がある」という統計的基準はありません。
下表は一般的な目安です。

③ 結論

「年代」と「使用状況」の2項目のデータ間に「関連性がある!」と説得力のある主張ができます。
クラメール連関係数0.149より、年代とY製品使用状況は関連(相関)がある。

やってみよう④「クロス集計」「クラメール連関係数」の応用編 ~ 相関係数の大小から影響要因を判断 ~

 相関係数の大小から、影響を及ぼす要素(要因)として判断することもできます。

以下は、副業・兼業に関する調査で、「経験有無」と「副業・兼業する人の特徴に自身があてはまるか」を聞き、クロス集計をした結果です。(2023年8月実施、詳しくはこちらから)

まず、クロス集計から何がいえるかを把握します。「副業・兼業に充てる時間がある」の質問では、「Yes」を回答した人は「副業経験あり」の方が多く、「No」を回答した人は「副業経験なし」の方が多いことがわかりました。

 次に、副業経験有無に関係・影響を及ぼす特徴は何かを「クラメール連関係数」で調べました。
クラメール連関係数が大きいほど、副業経験有無に影響を及ぼす要素(要因)と判断できます。

副業経験有無に最も影響するものは、第1位「副業・兼業に充てる時間がある」、第2位「自分から行動・情報収集ができる」、第3位「スケジュール管理・時間を生み出す力が上手」と続きます。

 このように、相関係数は「関連(相関)がある」「関連(相関)がない」の判断だけではなく、影響を及ぼす要素(要因)として判断することもできます! 

■(株)アイスタットでは、Excel で相関係数を求められる統計解析ソフトウエアを無料にてご提供中!
(何度でもダウンロード可) Windows版のみ

■ アイスタット定期セミナー開催中
「相関係数」は【入門編】統計解析入門・基礎と活用セミナーで学べます。

目次