外れ値

1.箱ひげ図による外れ値の検出

集団に属するデータにおいて、値の大きい(小さい)データがあるとき、このデータは他と比べて極端に大(小)といえた場合、このデータを「外れ値」とします。

データが正規分布に従っていることが分からない場合は箱ひげ図を、正規性が分かっているときは、次ページで示すスミルノフ・グラブス検定を用いて分析します。

箱ひげ図を用いる場合、上内境界点より大、あるいは下内境界点より小のデータを外れ値とします。

箱ひげ図とは

箱ひげ図は、データを視覚的に要約するためのグラフ。

箱ひげ図は下図に示す7つの統計量をグラフにしたものである。

  • 上側ヒンジ:第3四分位点
  • 下側ヒンジ:第1四分位点
  • ヒンジ幅=四分位範囲=第3四分位点-第1四分位点

 注. 第1四分位点、第3四分位点は「パーセンタイル・四分位偏差」で解説

下内境界点の計算値=下側ヒンジ-ヒンジ幅×1.5

下内境界点:上記式によって求めた計算値とデータの最小値とを比較し、

計算値<最小値であれば、下内境界点は最小値、

計算値>最小値であれば、下内境界点は計算値

とする。

上内境界点の計算値=上側ヒンジ+ヒンジ幅×1.5

上内境界点:上記式によって求めた計算値とデータの最大値とを比較し、

計算値>最大値であれば、上内境界点は最大値、

計算値<最大値であれば、下内境界点は計算値とする。

例題
次のデータは、ある会社のA支店における30歳未満社員の月給を示したものです。このデータの箱ひげ図を作成よ。

解答

データを並べ替えてから計算する。

四分位範囲=第3四分位-第1四分位=36.25-23.75=12.5 ヒンジ幅=12.5

箱ひげ図

外れ値

上内境界点より大きいデータ、下内境界点より小さいデータが外れ値である。

月給80万円>上内境界点=55万円より、外れ値である。

2.スミルノフ・グラブス検定

データが正規分布に従っていると判断できたとき、スミルノフ・グラブス検定により外れ値を検出できます。

スミルノフ・グラブス検定:Smirnov grubbs’ test

次に求める基準点S0と比べT≧S0なら最大値(あるいは最小値)は外れ値と判断します。

Excel関数での求め方

Excelの任意のセルで =tinv(2P/n,n-2)を入力しEnterキーを押す。
この値はExcelの関数で求められます。求め方は例題で示します。

例題
ある会社のA支店における30歳未満社員の月給のデータ(前に記載)について、スミルノフ・グラブス検定を用い外れ値を検出しなさい。

解答

データを大きい順に並べ替えます。

結論  外れ値は15のみ



目次