正規分布(標本、母集団、正規性)

正規分布を求める前に

まず、以下のように一辺約2cmの正方形をフリーハンドで50個書き、これらの辺の長さを求めることを事例としたいと思います。そのデータを表にしてデータを可視化します。

これらのデータをもとにヒストグラムを作ると、データがどのように散乱しているのか傾向を見つけることが出来ます。フリーハンドで作成していることから、以下の図のように様々な結果が現れることになります。つまり、測定値にはばらつきが生じます。

標本と母集団

測定値は一般的にばらつきが生じてしまうので、分布を定量的に評価する必要があり特徴量を抽出したり、その分布を関数であらわすといったアプローチが必要になります。

測定値を扱うにあたり、その全体を指す言葉として『標本』と『母集団』があります。

これらの明確な違いとしては、『標本』は母集団からサンプル数を決めて測定したデータのことを指し、得られた結果、つまり実際の測定データの集りのことを指します。一方で『母集団』はデータ数が無限にある(と仮定した)データの集りのことを指します。

標本に基づく分散は、Excelの関数VAR()で表すことが出来、また標本に基づく標準偏差はSTDEV()で表すことが出来ます。

一方、母集団に基づく(不偏)分散はVARP()で表すことが出来、また母集団に基づく(不偏)標準偏差はSTDEVP()で表すことが出来ます。

標本の平均や、標本の標準偏差の値はエクセル内の関数式以外に計算式として表すとするなれば、以下などのようにあらわすこともできます。