1.2 データタイプ ~統計データには種類がある~
先生:前ページで統計学の対象と明らかにできる事柄はわかったかな?次は統計学で取り扱うデータについて、ちょっと考えてみよう。データには、“測れる”データと“測れない”データがあるんだ。
(莉子)測れないデータってどんなものかしら。
(先生)データは2つに大別される。
測れるデータ→数量データ
測れないデータ→カテゴリーデータ(カテゴリカルデータ)
(先生)この2種類だ。数量データとカテゴリーデータの具体例を示しておこう。

(莉子)数字が数量データ、それ以外がカテゴリーデータですね。
(先生)まぁそうなんだけど、その考え方ではちょっと危険なときがある。数量データには単位があって、カテゴリーデータにはないと覚えておこう。

(莉子)危険なとき?
(先生)そう。アンケートの集計では便宜上、カテゴリーデータを数字に置き換えるのが一般的なんだ。データを入力する時には、文字より数字の方が入力しやすいからね。
これは見た目では数字だけど数量データとは言えない。だから平均値や最大値、最小値などを求めてはいけないよ。

(莉子)なるほど。血液型の平均をとっても意味がないですよね。
(先生)そう。年齢や身長などの数量データは平均値を求めるけれど、血液型や性別などのカテゴリーデータはA型が何%、女性が何%というように比率を求めるんだ。
データタイプによって集計の仕方は異なるわけだから、集めたデータがカテゴリーデータか数量データかを把握しておくことはとても重要なんだ。
(先生)データタイプによって集計の仕方は異なるわけだから、集めたデータがカテゴリーデータか数量データかを把握しておくことはとても重要なんだ。
(莉子)はい。データの種類(数量orカテゴリー)に気をつけます。
(先生)ただし、ちょっと例外があるんだ。小学生の時の通信簿は「とてもよい」「よい」「もう少し」といった段階評価じゃなかったかな?
(莉子)ええ。3段階評価でした。
(先生)この場合、数字に置き換えて平均値を求めてもいいんだ。
あまり意味がないけど最大値や、最小値を求めてもいいよ。
(莉子)さっきの血液型と何が違うのかしら。
(先生)「とてもよい」「よい」「もう少し」というのは順序カテゴリーといって、並びに意味があるんだ。
必ずこの順序か、逆の「もう少し」「よい」「とてもよい」のどちらかだ。
(先生)「よい」「もう少し」「とてもよい」となっている通信簿はないよね。
(莉子)たしかに。いつも並びは一緒だわ。
(先生)このような場合には「とてもよい」を3点、「よい」を2点、「もう少し」を1点として平均を求めてもいいんだ。品質が「よい」「ふつう」「わるい」とか、サービスに「満足」「ふつう」「不満」なんかもそうだよ。
これは数量データ?カテゴリーデータ?
数量データとカテゴリーデータの違いがわかったところで、ちょっと練習してみましょう。下のそれぞれは、数量データでしょうか。それともカテゴリーデータでしょうか。考えてみてください。
- 年収(457万、642万・・・)
- 職業(会社員、自営業・・・・)
- 講習商品の使用満足度(満足、やや満足、どちらとも言えない、やや不満、不満)
- この講座の評価(難しすぎる、ちょうどよい、やさしすぎる)