主成分分析

目次

主成分分析の基本 ≪ 2/3 ≫

関係式の係数

 5科目平均値による総合評価は、どのテスト科目も重要度は同じという考えになっています。テスト科目の重要度を考慮して総合評価を算出するという考え方もあるはずです。
 テスト科目の重要度を考慮した係数で関係式を作り、総合評価を求める手法が主成分分析です。

 10点満点評価のデータに主成分分析を適用した結果を示します。
 目的変数のある場合の関係式は一つでしたが、目的変数のない場合は複数の関係式が導かれます。この例題では、総合タレント力と系別能力を求める2つの関係式が出力されました。

 主成分分析では関係式の係数を固有ベクトルといいます。
 「重回帰分析で関係式の係数である回帰係数の値を比較して、値が大きい説明変数は重要と言ってはいけない。その場合、データを基準化して求めた係数(標準回帰係数)で比較すること。」ということを学びました。
 主成分分析も同様です。特に主成分分析は説明変数の重要度を主目的とすることが多く、大概の場合、基準化したデータで主成分分析を行います。

 パソコン用ソフトで主成分分析を行う場合、生データ、基準値データ(基準化したデータ)のどちらで行うかを選択できます。ほとんどのソフトは、生データで行う主成分分析を「分散・共分散行列による主成分分析」、基準値データで行う主成分分析を「相関行列による主成分分析」という用語を用いています。

主成分得点

 下記は基準値データです。関係式に基準値を代入して求めた値を主成分得点といいます。

縦軸を総合タレント力(第1主成分得点)、横軸を系別能力(第2主成分得点)として、散布図を作成しました。

縦軸で0より上に位置するA、B、C、D、Fを合格としました。合格者のキャラクターは、横軸で0より右のD、Fをアイドル系、左のB、A、Cをお笑い系としました。

主成分(潜在変数)の個数と説明力

 主成分分析を行い総合タレント力、系別能力の2つの主成分が見いだされましたが、もしかしたら3番目、4番目、・・・の主成分があるかもしれません。理論的には適用した変数の数だけ主成分は存在します。

 主成分分析の目的は、数多くある観測変数を数少ない潜在変数で説明することです。潜在変数は少ない方がよいのですが、少なすぎるとその潜在変数だけでは観測変数を説明できないかもしれません。一方、潜在変数が多すぎると観測変数に対する説明力は高まりますが、この例題のように受験者を2つの潜在変数である総合タレント力と系別能力の散布図に集約するといったことができなくなります。

 主成分分析をパソコンソフトで行うと下記が出力されます。

表内の累積寄与率が適用した潜在変数までの説明力を示しています。

表内の固有値は各主成分の説明力で、合計すると観測変数の個数に一致します。主成分は固有値が大きい順に第1主成分、第2主成分、・・・、と名称します。寄与率は各固有値を観測変数の個数で割った値です。累積寄与率は当該主成分までの寄与率の合計です。

 主成分分析の潜在変数の個数は2~3がよいとされています。第2主成分まで適用した場合の説明力は73%、第3主成分までの説明力は86%です。説明力はいくつ以上あればよいという統計学的根拠はありませんが、先生は経験的に60%ぐらいあればよいと思っています。そこでこの分析では2つの主成分(潜在変数)としました。

 潜在変数3つで説明力が60%しかない場合、類似した説明変数を落として再度主成分分析を行います。落としたくない、落とせない場合は 潜在変数の数を増やさざるを得ません。
   
 目的変数のある場合の解析手法は決定係数、判別的中率など分析精度がありました。分析精度が高ければ目的変数の実績データと関係式から計算された理論値とは近く、この関係式は予測に使えると判断しました。目的変数のない場合の解析手法は、目的変数の実績データが存在しないので、関係式から計算された値(主成分分析では主成分得点)との突合せができず、分析精度はありません。分析精度に代る値が累積寄与率(説明力)です。

成分(潜在変数)の解釈とネーミング

 主成分分析では複数個の主成分(潜在変数)を出力してくれますが、この例題の総合タレント力、系別能力という名称までは教えてくれません。この名称は分析者が決めなければなりません。

主成分の名称は固有ベクトルの横棒グラフを解釈し、決めるのが通常です。

 固有ベクトルが全てプラスの主成分は総合力を示します。大概の場合、総合力の主成分は一つで、第1主成分が総合力となります。

 固有ベクトルがプラスとマイナスが混在する主成分は相反する概念の能力を示します。この例題のアイドル系能力とお笑い系能力、学校のテスト成績における文系能力と理系能力、大相撲の体力測定のソッポとアンコなどです。

 この例題の第1主成分の固有ベクトルは全てプラスなので総合タレント力と名称しました。総合タレント力への影響度は、歌唱力、ものまね、瞬間芸、踊り、容姿の順となりました。

 第2主成分は容姿、踊りがプラス、ものまね、瞬間芸がマイナスで、前者をアイドル系能力、後者をお笑い系能力と名称しました。プラス、マイナスは相対的なもので符号が逆転していてもかまいません。

1 2 3
目次