【図解】コレ1枚でわかるデータ尺度の統計学的分類
データを統計学的に大別すると2つの変数と4つの尺度に分類されます。
質的変数:
カテゴリー変数(categorical variable)とも呼ばれ、分類や順序を与えるために用いられるものです。これには、名義尺度と順序尺度があります。
名義尺度(nominal scale)
分類するために数値を割り当てたもので、数値が同じならば同じ分類に属し,数値が異なれば異なる分類となります。
例えば、性別、居住地域、所属部署、社員番号など、対象を区別し分類するための名称のようなものです。数値ではありますが、北海道に1、青森県に2、岩手県に3といった数値を割り当てて使います。その数値の大小関係に意味はありません。
区別するためだけに用いられている数値なので、等しいか等しくないかのみ意味があり、値の大きさには意味がありません。従って、「男性の人数」あるいは「血液型がA型の人数」といった度数や最頻値には意味がありますが、中央値や平均には意味がありません。
順序尺度(ordinal scale)
順序を示すために数値を割り当てたもので、数値の大小関係で表します。
例えば、好きなスポーツの順位やマラソンの着順、売り上げランキングの順位や成績の5段階評価などです。マラソンの着順の場合、1位は2位よりも上位ですが、1位と2位の間隔は2位と3位の間隔と同じとは言えず、4位が2位の2倍のタイムとも言えません
このように度数、最頻値、中央値には意味がありますが、間隔や比率、平均や分散、標準偏差には意味がありません。
量的変数:
定量的データ(quantitative data)と呼ばれ、間隔や大小などの間隔や比率を示すために用いられます。これには、間隔尺度と比率尺度があります。
間隔尺度(interval scale/distance scale)
目盛が等間隔になっている、あるいは等間隔であると仮定されているもので、大小関係に加えてその間隔に意味があります。例えば、西暦や温度、偏差値などです。2020年から1年経てば、2021年なるや、気温が10℃から5℃上昇すると15℃になると言った場合です。ただし、10℃から20℃に上昇したとき、2倍になったとはなりません。また、偏差値が40から50に上昇した場合、偏差値が10増えたということができます大きさを持つので、和や差、平均、標準偏差には意味があります。ただし、原点はなく、0は相対的な値です。
比率尺度(ratio scale)
原点(0)の決め方が定まっていて、間隔にも比率にも意味があります。例えば、身長、体重、値段、販売数量、市場シェアなどです。また、温度でも原点となる絶対0度を定める絶対温度の場合は、比例尺度となります。「1000円の商品は、500円の商品の2倍の金額」というように、比を考えることができます。最頻値、中央値、平均値、いずれにも意味があります。また、加減乗除の四則演算や比例計算ができます。
様々な事象について、上記のような尺度を与えることの利点は、次の4つの点です。
- 曖昧性の排除:あいまいさが排除でき客観的で正確な記述が可能になります。例:"暑い"と"気温30度"
- 簡潔性の向上:簡潔な表現でデータ全体の特徴・傾向を知ることが可能になります。例:体重が標準に対して10Kgオーバー
- 比較が可能:他のデータとの比較が可能になります。例:AさんとBさんの身長
- 計算が可能:分析結果に基づいて客観的で合理的な結論を導くことが可能になります。例:男女の比率