基本統計量と箱ひげ図(Box plot: ボックスプロット)

統計学のカテゴリーでは、基本的な統計の理解やエクセルの操作方法、多少踏み込んだ統計解析まで解説しています。このページでは、統計解析で頻繁に利用する基本統計量(平均値、中央値、分散、標準偏差など)や、それらの数値を元にした箱ひげ図(ボックスプロット、box plot)について解説したいと思います。このページと関連する誤差や正規分布、ヒストグラムなどといった内容については、カテゴリーページから参照してください。

基本統計量

基本統計量とはデータの基本的な特性を表すもので、具体的には標準偏差、分散、最小値、第1四分位、平均、中央値、第3四分位、最大値(第4四分位)、合計、標本数、度数、範囲などがあります。

平均値や中央値は、ご存知の方も多いと思います。例えば、5人の点数の平均値は、5人全員の点数を合計して人数で割った値です。以下の数式だけを見ると分かりにくいですが、そのことが分かると思います。中央値は順番として真ん中になる値であり、5人のうち3番目の点数です。

一般的に、このような点数の場合は、平均値と中央値が概ね一致する場合が多いですが、異なる場合も少なくありません。例えば、2022人の日本人の日本全体の平均年収は4,453,314円ですが、中央値は3,967,314円という調査結果があるようです。

上記、分散は数式になると分かりにくいかもしれませんが、平均値と各数値を差し引きして、その数値を2乗して、平均値を求めたものになります。例えば、平均値が同じであっても分散が大きいと、数値の分布が大きく隔たっていることを示します。

標準偏差は、分散の数値の平方根(ルート)を計算したものになります。分散と標準偏差は、データのばらつきの度合いを表しており、データにおいて値の中心からの散布度を指しています。

その他、様々な統計量がありますが、五数要約は箱ひげ図にも利用する値になります。中央値だけではなく、最大値と中央値、最小値と最小値の間をさらにその中央値を求めた値です。例えば、9人の点数の場合、1番目が最大値、3番目が第三四分位数、5番目が中央値、7番目が第一四分位数、9番目が最小値となります。

五数要約をまとめると、以下のようになります。

最小値:データにおけるもっとも小さな値
第1四分位:一番小さな値から25%目の値のことを指します。
中央値:順番として真ん中になる値(≠平均値)
第3四分位:一番小さなデータから75%の値
最大値:データにおけるもっとも大きな値

箱ひげ図と利用する関数

箱ひげ図とは、上記五数要約の数値を分かりやすく提示するグラフになります。四分位範囲が箱のようであり、最大値と最小値の表示が髭のようであることから箱ひげ図と呼ばれています。

箱ひげ図に必要な各種の数値(五数要約)はエクセルの関数で求めることができます。最大値、最小値のMax, MINという関数は覚えやすいと思います。四分位数の関数QUARTILEは、滅多に利用する機会のない関数であると思います。

四分位数の関数の使い方は以下の図の通りになります。

箱ひげ図の作成演習

上記の基本用語や関数の理解があれば、以下の動画を参照すると箱ひげ図の作成は比較的容易なのではと思います。以下のデータを使って、是非、挑戦してみて下さい。

(統計学)6.五数要約と箱ひげ図
タイトルとURLをコピーしました