基本統計量と箱ひげ図:理論からエクセルでの作り方まで解説

基本統計量

基本統計量とはデータの基本的な特性を表すもので、具体的には標準偏差、分散、最小値、第1四分位、平均、中央値、第3四分位、最大値(第4四分位)、合計、標本数、度数、範囲などがあります。

平均値や中央値は、ご存知の方も多いと思います。例えば、5人の点数の平均値は、5人全員の点数を合計して人数で割った値です。以下の数式だけを見ると分かりにくいですが、そのことが分かると思います。中央値は順番として真ん中になる値であり、5人のうち3番目の点数です。

一般的に、このような点数の場合は、平均値と中央値が概ね一致する場合が多いですが、異なる場合も少なくありません。例えば、2022人の日本人の日本全体の平均年収は4,453,314円ですが、中央値は3,967,314円という調査結果があるようです。

上記、分散は数式になると分かりにくいかもしれませんが、平均値と各数値を差し引きして、その数値を2乗して、平均値を求めたものになります。例えば、平均値が同じであっても分散が大きいと、数値の分布が大きく隔たっていることを示します。

標準偏差は、分散の数値の平方根(ルート)を計算したものになります。分散と標準偏差は、データのばらつきの度合いを表しており、データにおいて値の中心からの散布度を指しています。

その他、様々な統計量がありますが、五数要約は箱ひげ図にも利用する値になります。中央値だけではなく、最大値と中央値、最小値と最小値の間をさらにその中央値を求めた値です。例えば、9人の点数の場合、1番目が最大値、3番目が第三四分位数、5番目が中央値、7番目が第一四分位数、9番目が最小値となります。

五数要約をまとめると、以下のようになります。

最小値:データにおけるもっとも小さな値
第1四分位:一番小さな値から25%目の値のことを指します。
中央値:順番として真ん中になる値(≠平均値)
第3四分位:一番小さなデータから75%の値
最大値:データにおけるもっとも大きな値