判別分析

目次

 判別分析の基本 ≪ 2/3 ≫

判別分析の関係式

 判別分析は、目的変数と説明変数との関係を調べ関係式を作成し、その関係式を用いて「①説明変数の重要度ランキング」「②判別(予測)」を明らかにする手法です。

残念ながらExcelには判別分析を処理する機能はありません。判別分析ができるソフトを用い、ガン有無のデータに対して判別分析を実行し関係式を作成しました。

関係式の係数の求め方

 関係式の係数はどのようにして求めるかを考えて見ましょう。

 まず始めに、先生から皆さんへ問題をだします。
右記の□の中に適当な数値を代入し、全ての人において合計が、ガンで有る人はプラス、ガンでない人はマイナスになるようにしてください。

一つの解答例を右記に示しました。

この解答は、ガンであるA~Eさんの5人の内4人がプラス、ガンでないF~Jさんの5人の内4人がマイナスとなり、正解に近いと思われます。

重回帰分析や数量化Ⅰ類では、実績値と関係式から求められた理論値(サンプルスコア)ができるだけ一致するよう、すなわち実績値と理論値の相関ができるだけ大きくなるように、関係式の係数を求めました。
 
判別分析も同様な考え方で係数が求められます。
判別分析の実績値はガンの有無でカテゴリーデータです。上記で計算された値(理論値)を、判別分析では判別得点といいます。

実績値はカテゴリーデータ、判別得点は数量データなので両者の相関は相関比で求められます。
したがって、判別分析における関係式の係数は実績値(ガンの有無)と判別得点との相関比が最大となるように求めたものです。

関係式の係数を判別係数といいます。前述の関係式の判別係数は相関比を最大にする値です。

分析精度

分析精度を調べる方法を二つ示します。

 一つは、実績値(ガンの有無)と判別得点との相関比です。相関比の値が大きいほど分析精度は高く、基準の0.5を上回れば関係式は予測に使えると判断します。
 相関比はいくつ以上あれば良いかと、よく質問されます。残念ながらいくつ以上あれば良いという統計学的基準はありません。この基準は、分析者が経験的な判断から決めることになります。先生は、右表のように決めていますが、皆さんはいかがでしょうか。

 もう一つは、判別クロス表を用いる方法です。判別クロス表は、判別得点の符号「+、-」とガンの有無とをクロス集計したものです。右記の判別クロス集計表の赤表示の数値は実績と予測が一致した人数を示しています。一致人数の全人数に占める割合を判別的中率といいます。判別的中率の値が大きいほど分析精度は高く、基準の75%を上回れば関係式は予測に使えると判断します。

判別係数の検討

 重回帰分析で、関係式の係数にはデータ単位があり目的変数のデータ単位と同じだということを学びました。
判別分析も同様に、目的変数と説明変数のデータ単位は同じです。ところが、判別分析の目的変数はカテゴリーデータでデータ単位がありません。したがって、説明変数もデータ単位がないということになります。
重回帰分析は目的変数、説明変数にデータ単位があったので、説明変数の目的変数に対する貢献度の分析ができましたが、判別分析は各変数にデータ単位がないので貢献度の分析はできません。

各変数の重要度

 ガンの有無のデータを基準値にして判別分析を行います。求められた係数を標準判別係数といいます。
ガンの有無データの関係式の飲酒量0.054とタバコ喫煙本数0.176とを比較し、飲酒量の係数の方が小さいから重要でないということはいえません。標準判別係数では、飲酒料0.53とタバコ喫煙本数2.42とを比較し、タバコ喫煙本数の係数の方が大きいので重要であるという判断をします。
注.基準値データで判別分析を行うと定数項は必ず0になります。

1 2 3
目次