数量化1類の基本 ≪1/3≫
数量化1類で明らかにできること
数量化1類という手法は、「目的変数のある場合の手法」の一つで、重回帰分析と非常によく似た手法です。重回帰分析との違いは、説明変数のデータ形態が重回帰分析は数量データであるのに対し、数量化1類はカテゴリーデータであることです。
数量化1類は、目的変数と説明変数との関係を調べ、関係式を作成し、その関係式を用いて、次のことを明らかにする手法です。
①説明変数の各カテゴリーの目的変数に対する貢献度(影響度)
②説明変数の重要度ランキング
③予測
数量化1類で適用できるデータ
数量化1類は、目的変数が数量データ、説明変数がカテゴリーデータです。
下記例題のデータ形態を調べてみます。目的変数は数量データですが説明変数はカテゴリーデータと数量データか混在しています。このままだと数量化1類は適用できません。年齢をカテゴリーデータにして、説明変数を全てカテゴリーデータにします。
数量化1類に適用するデータは次式の条件を満たしてなければなりません。
個体数>カテゴリー総数-説明変数個数+1
下記例題 : 9-3+1=7 → 個体数は8以上
この例題の個体数は200人なので、このデータは数量化1類が適用できます。

数量化1類の例題
駅前の路上で朝の7時~9時の間、通勤者向けに新聞販売をしている店があります。ここで扱っているAスポーツ新聞の売上部数を、店開きの1時間前までに予測し、その日の店に仕入れる最適な新聞部数(売れ残りや早い時間での売り切れがないような部数)を決めることにしましょう。
一般的に、スポーツ新聞の日々の売れ行きは、その日の曜日・天候・前日の巨人(野球チーム)の勝敗・当日および前後の日に競馬(ビッグレース)があるかどうかなどによって決まるようです。
そこで、野球シーズン中のある月の4週間にわたって、Aスポーツ新聞の売上部数・天候・巨人の勝敗・競馬の有無を調べたところ、右の表の結果を得ました。
このデータを分析することにより、任意の日、例えば”月曜日で天候は小雨、前日の巨人の試合は中止、当日および前後の日の競馬がない”という日における、Aスポーツ新聞の売上部数を予測します。

分析手順
この例題の分析手順を示します。
<数量化1類を使う前の基本分析>
①目的変数である新聞売上部数の基本統計量を算出
②説明変数ごとに、新聞売上部数のカテゴリー別平均値を算出
➡どのような日(曜日、天候など)において新聞は売れるかを把握
③新聞売上部数と説明変数との相関を算出
➡新聞の売れる・売れないに影響を及ぼしている説明変数を把握
<数量化1類を適用しての分析>
④予測するための関係式を作成
⑤関係式の係数矛盾現象をチェックする
⑥関係式の分析精度を調べる
⑦予測するための関係式を作成
数量化1類を使う前の基本分析
28日間の新聞売上部数の平均値は45部です。
新聞売上部数のカテゴリー別平均値から、売れる日は月曜日、晴れ、巨人が勝つ、競馬がある日であることが分かりました。
相関比から新聞売上部数の売れ行きに影響を及ぼしている説明変数は、曜日、天候であることが分かりました。

カテゴリースコア
カテゴリー別平均値から、「月曜日はよく売れるらしい」、「小雨の日はあまり売れないらしい」、また「前日に巨人の試合がなかった日や、当日または前後日に競馬がない日は売れないらしい」といったことが分かりました。残念ながら、この情報だけでは予測の問題は解決できません。そこで、カテゴリー別平均値から把握できたこと、すなわち各カテゴリーの新聞売上部数に対する貢献度を、何らかの方法を用いて数量で表現することを考えてみます。
具体的には、「月曜日は全体平均45部より売上部数を7部多くするというプラス的働きがある」とか「小雨は平均売上部数を7部下げるというマイナス的働きがある」といった具合に、”月曜日” ”小雨” というカテゴリーを数量化することを考えるのです。仮にすべてのカテゴリーに数量が与えられたとすれば、予測すべき新聞部数は、”月曜日” ”小雨” ”巨人の試合中止” ”競馬無し” に与えられたそれぞれの数量(部数)と、平均売上部数との足し算によって導くことができます。
このような考え方で各カテゴリーの数量化を行う方法が、ここで学習する数量化1類という解析手法です。数量化された値のことを、数量化1類ではカテゴリースコアといいます。
新聞売上部数のデータに数量化1類を適用し、カテゴリースコアを求めると、次の表のようになります。

カテゴリースコアの求め方
下のA表はカテゴリーデータです。下のB表はカテゴリーデータを1,0の数量データに変換したものです。
B表の15列のデータを説明変数、新聞売上部数を目的変数として重回帰分析を行います。
任意の複数項目を選択し、個体ごとにその項目のデータの合計を計算したとき、どの個体も合計値が同じになる場合、重回帰分析は実行できません。
このデータは、曜日の7列のデータを合計すると、どの日も1となります。(天候、巨人勝敗、競馬についても同様です。)そこで、4項目からそれぞれ任意の1列を削除します。この例では、曜日は土、天候は雨、巨人勝敗は無、競馬は無の最後の列を削除しました。
11列を説明変数、新聞売上部数を目的変数として重回帰分析を実行します。下のC表にそのときの回帰係数を示しました。下のD表に、削除した列の、土、雨、巨人勝敗/無、競馬/無の回帰係数を0として記入しました。
項目ごとに、加重平均を算出します。回帰係数から加重平均をひきます。D表の④がカテゴリースコアです。
