数量化3類

数量化3類の基本　≪ ２/３ ≫

カテゴリースコアの求め方

　カテゴリースコアはどのようにして求められるかを調べてみましょう。
40代の男性10人を対象に、晩酌でよく飲むお酒の種類を日本酒、ビール、ウイスキーのなかから選んでもらうアンケート調査を行いました。
このデータ(下記イ)から、お酒とそれを飲む人の特性を分析し、回答のされ方が類似しているお酒、回答の仕方が類似している人を明らかにします。
　アンケート調査の回答パターンから、お酒の種類と10人の男性両方に得点を与えます。その際、同じような特性をもつ人は同じようなお酒を好み、同じような特性のお酒は同じような特性をもつ人に好まれると仮定し、お酒と人とを得点化します。
このような得点は、次の考え方で求めることができます。
　①「イ」のデータを、横にはさみを入れてばらし、10枚の短冊を作ります。
　② 〇ができるだけ隣り合うように10枚の短冊を並べ換えます。→「ロ」
　③「ロ」のデータを、縦にはさみを入れてばらし、3枚の短冊を作ります。
　④ 〇ができるだけとなりあうように3枚の短冊を並べ換えます。→「ハ」
この結果、「お酒」についても、「人」についても似ているもの同士が並びます。例えば、ウイスキーはビールの隣に位置しているので、ウイスキーは日本酒よりビールに似ている、ＪとＢは似ている、ＪとＡは似ていない、などです。
　お酒に対する得点は、「ハ」のお酒の並びに対応した得点を付ければよいことになります。左に位置するお酒ほど大きな得点を付けることにします。
　日本酒とビール両方に〇がある人はＣとＤの二人で、日本酒とビールの一致個数は2であるといいます。全ての組み合わせについて一致個数を調べます。
　得点の付け方は、お酒の並びだけでなく一致個数も考慮します。この結果、お酒に対する得点は、日本酒0.41、ビール－0.06、ウイスキー－0.25になりました。具体的な計算方法は割愛します。
　お酒についた得点がカテゴリースコアです。

他の並べ方もたくさん考えられます。後ほど説明する、並べ方の良し悪しを調べる相関係数を用い、２つの並べ方を選びました。下記は２番目に良い並べ方とカテゴリースコアです。
　１番目、２番目･･･を軸１、軸２、･･･と言います。

サンプルスコアの求め方

　前記表で〇のついたセルをカテゴリースコアに置換し、各サンプルの平均を求めます。

平均の値をサンプルスコアと言います。

軸のネーミング

　軸１のカテゴリースコアを縦軸、軸２のカテゴリースコアを横軸にとり、性格の散布図を作成します。
この図から、軸１の上側は日本酒、下側はウイスキーとビールなので、軸１は「和酒－洋酒」の判別軸と名称しました。
軸２の右側はビール、左側はウイスキーと日本酒なので、軸２は「アルコール度数強弱」の判別軸としました。

サンプルのポジショニング

　　軸１のサンプルスコアを縦軸、軸２のサンプルスコアを横軸にとり、各サンプルの散布図を作成します。
ネーミングされた軸で、各サンプルがどの位置に存在するか、また、どの人同士が近い位置に存在するかを把握します。
回答が同じ人は点の位置が重なっています。例えばＢとＪです。
上に位置するＢとＪは和酒（日本酒）、左下のＡとＩは度数が強い洋酒（ウイスキー）、ＦとＧは度数の弱い酒（ビール）を晩酌でよく飲むお酒だといったことがわかります。

分析精度

　軸１の並べ換え表をみてください。

いろいろな並べ換え表が存在しますが、下記の並べ換え表は、〇の配置を囲む楕円形が最も細くなっています。楕円形が細い、言い換えれば赤線上に〇の位置が近い並べ換え表ほど良いと判断します。並べ換えの良し悪しは下記で示す相関係数で求めることができます。
　先生は、相関の高い軸を２～３個選んで分析します。ただし選んだ軸の相関係数は0.3以上あることを前提としています。

　軸１について、並べ換え表の相関係数の求め方を調べてみます。
　右の左側の表を再掲し、Ａ表と名称します。
　Ａ表における日本酒を飲む4人のカテゴリースコアとサンプルスコアを、下記のＢ表の上段に記します。次にビールを飲む6人のデータを中段、ウイスキーを飲む5人のデータを下段に記します。
　Ｂ表において、カテゴリースコアとサンプルスコアとの相関係数を算出します。相関係数は0.791となりました。
　この相関係数の値が大きければ、並べ換え表は良いとされます。すなわち、その軸（潜在変数）は観察変数（この例では性格）を説明するのに重要だと判断します。

相関係数はいくつ以上あれば良いという統計学的基準はありませんが、先生は、相関が0.5以上の軸は説明力の高いと判断しています。そして、相関が0.3未満の軸は使わないことにしています。
コンピュータソフトにおいては、軸1、軸2は説明力の高い順に出力されいます。
数量化3類における固有値は相関係数の２乗のことです。

２項目間の関連性を数量化3類で調べる

　２つの項目の関連性を調べる方法はいろいろあります。血液型と性格に関するアンケートデータを用い、血液型と性格の関連性を把握する解析手法を調べてみましょう。
　①　クロス集計
　②　コレスポンデンス（双対尺度法）
　③　数量化3類
　④　数量化3類／属性別重心

①　クロス集計　➡下記表

②　コレスポンデンス（双対尺度法）

クロス集計表の関連性を視覚的に表現する手法がコレスポンデンスです。（詳しくはコレスポンデンス分析をご参照下さい）

③　数量化3類

性格と血液型の２つの項目に数量化3類を適用しました。カテゴリースコアの散布図より、血液型と性格の関連性を調べます。

④　数量化3類／属性別重心
性格の項目１つに数量化3類を適用します。求められたサンプルスコアの血液型別平均値を求めます。（この平均値を属性別重心ということがあります）
　属性別重心の散布図とカテゴリースコアの散布図を対応させ、血液型と性格の関連性を調べます。

1 2 3