判別分析

目次

判別分析の基本 ≪ 1/3 ≫

判別分析が適用できるテーマとデータ

 判別分析は、目的変数がカテゴリーデータ(群データ)、説明変数が数量データの時、適用できる解析手法です。

 判別分析が適用できるテーマと例題を示します。
ガンの原因はいろいろな要素が考えられますが、ここでは例題なのでシンプルに、飲酒量、タバコ喫煙本数としましょう。

既に、ガンである、ガンでないと判定された人を対象に、飲酒量、タバコ喫煙本数を調べます。集められたデータから、ガン判別の関係式を作成し、現在ガンであるかないかが分からない人について、ガンの有無を判別(予測)することにします。
このとき収集したデータの形態を調べると、飲酒量、タバコ喫煙本数は説明変数で数量データ、ガンの有無は目的変数でカテゴリーデータです。これよりこのテーマには判別分析が適用されることになります。

判別分析から明らかにできること

判別分析は、目的変数と説明変数との関係を調べ関係式を作成し、その関係式を用いて次のことを明らかにする手法です。

①説明変数の重要度ランキング
②判別(予測)

データの制約条件

①説明変数のデータが全て同じ場合、判別分析は実行できません。
②任意の複数項目を選択し、個体ごとにその項目のデータの合計を計算したとき、どの個体も合計値が同じになる場合、判別分析は実行できません。

③判別分析に適用するデータは次式の条件を満たしてなければなりません。

 個体数>説明変数の個数+1

ガンの有無について調べると、「説明変数の個数+1」は3です。従って個体数は4以上必要です。

この例題の個体数は10人なので、このデータは判別分析が適用できます。

判別分析を行う前の基本分析

 判別分析を行う前に基本解析を行います。
目的変数はカテゴリーなので、各カテゴリーの比率を算出します。
説明変数は数量データなので、基本統計量、度数分布を作成します。
目的変数と説明変数の関係を調べます。目的変数がカテゴリーデータ、説明変数が数量データなので、カテゴリー別平均値と相関比を算出します。カテゴリー別平均に差があるか、相関比の値が大きい説明変数は何かを検討してから多変量解析へ進みましょう。

1 2 3
目次