第6回 多変量解析で解析結果が上手くいかない場合

このシリーズでは、アイスタット統計セミナー受講者の「知っているようで、意外に知らなかった」という声をもとに、統計の基礎や分析者が陥りやすい統計の落とし穴などについて解説していきます。
< 監修:アイスタット代表取締役会長 菅 民郎 


多変量解析の教科書的な知識は有るものの、実践となると不安を感じるといった声をよく耳にします。
また、以下のようなお問い合わせもよく受けます。
 ● 教科書のように解析結果が上手くいかない
 ● 解析結果の精度をあげたい

多変量解析の手法には様々なものがありますが、
「解析結果が上手くいかない」や「精度をあげたい」に共通して言えることは、希望するデータ項目(変数)をすべて解析に使用できるわけではない」という点です。

解析目的に必須の項目(変数)を全て使用したいのはわかります。
しかし、多変量解析では使用する項目(変数)の数が膨大であったり、類似した項目(変数)が重複したりすると、結果として以下の問題を引き起こす可能性があります。

①分析精度が基準値を超えない
 解析手法により、分析精度を確認する箇所が異なります。
出力結果にある「決定係数」または「寄与率」または「判別的中率」などの数値が分析精度の基準を超えていれば、分析が上手くいっていると判断します。

②係数矛盾現象が起きてしまう
解析手法により、係数矛盾現象を確認する箇所が異なります。
係数矛盾現象が起きていなければ、分析が上手くいっていると判断します。

<重回帰分析の例>

回帰係数の符号(プラス、マイナス)と単相関係数の符号が一致していない説明変数があるとき、「係数矛盾現象」が起こったといいます。

詳しくはこちら⇩
重回帰分析で係数矛盾現象が起こる例

<数量化1類の例>

カテゴリースコアとカテゴリー別平均の値が対応していない説明変数があるとき、「係数矛盾現象」が起こったといいます。

詳しくはこちら⇩
数量化1類で係数矛盾現象が起こる例

そのため、多変量解析の実施にあたっては、まず初めに
「適切な項目(変数)の選択」を行うことが不可欠です。
このプロセスは解析の精度を大きく左右する非常に重要なステップですが、意外にも見落とされることが多いようです。
使用する項目(変数)について、以下を確認しましょう!

説明変数相互の相関を調べ、相関が高い項目(0.6以上)が見られた場合、どちらか一方の変数は使いません!

目的変数がある解析の場合、
目的変数と説明変数の単相関係数が0.3未満、または相関比が0.1未満の説明変数は使いません!

● 説明変数のデータがすべて同じ値の場合、使いません!

● 説明変数の個数が「n数 – 1」より少ないことが条件の手法もあります。

なお、変数の選択を行った上で解析を実施しても、まだ精度が低かったり、係数矛盾現象が起きる場合もあります。
その場合は、繰り返し変数選択を行います。その結果、当初10個ほどあった変数が、最終的に3個まで絞り込まれることもあります。

変数の選択を重ねても結果が上手くいかない場合や、最終的に変数が少なくなってしまい納得がいかない場合は、以下の方法を試してみるのも一つの手です。

使用するデータタイプを変更して(数量⇔カテゴリー)、解析手法を変えます!
例)重回帰分析 ⇔ 数量化1類
例)判別分析 ⇔ 数量化2類 または ロジスティック回帰


● 新規にデータを作成したもので、解析を行います!
例)類似項目が多数ある場合、その平均を算出し、1つの項目(変数)を作成。
例)因子分析が上手くいかない場合、数量化3類のサンプルスコアを適用して

クラスター分析を行いイメージグループを作成

多変量解析において、一度の分析で期待通りの結果が得られるケースは稀です。
また、唯一の正解というものも存在しません。分析者が納得のいく結果が得られるまで、試行錯誤を繰り返しながら分析を進めていきましょう。

多変量解析の種類

使用するデータタイプにより解析手法が決まります。

※ 詳しく学びたい方はこちら➡多変量解析の概要・種類

アイスタットでは、多変量解析のデータ解析・コンサルティングを承っております。
詳しくはこちら➡アイスタットのデータ解析

目次