正規分布(標本、母集団、正規性)

正規分布が現れる事象

では、測定値の正規性を求める作業を実際に行うのはどのような場合であるか、具体例を以下に紹介していきましょう。

まずは「硫酸銅中の水分含量」や「健康ドリンク中の鉄イオン濃度」の測定値はどのようにバラつくか?といった内容についてです。実験で得られる値には何かしらの影響を生じるため測定値のばらつきは付き物になってきます。よってこれらのデータから正規性を求めるにあたり測定値と付き合っていく必要があります。

次に校庭の木の葉や海岸の貝殻など自然界で成長しているものの大きさのバラツキはどんな分布をしているだろうか?といった内容についてです。自然界の物は全てが統一して同じものはありません。その中で生じる大きさの違いは測定値として扱う際にはばらつきが存在しえます。

出は次にランダムなサンプリングを基に生じる測定値の正規性を求める際の例を見ていきましょう。

まず一つ目の例です。厚い本のページを適当に開き、ページ数の最後の桁を記録する。5回繰り返し,平均を求め、これを繰り返すと平均値はどんな風にバラつく?といった内容についてです。本来なら0~9の数字が等しく出現する可能性があるので平均値は4.5になるはずといえます。これは確率の問題でよくだされるサイコロでも同じことが言えます。しかし実際の測定データはこのようなデータが得られるとは限らないため、ここで正規性が生かされてくるのです。

つぎに、エクセルの関数 RANDBETWEEN()を利用すると,任意の区間の整数の乱数を発生させることができます。では実際に10個発生させては平均を求め、これを繰り返すと平均値はどんな風にバラつく?といった内容についてです。上記同様に本来なれば0から9の数字が均等に生じるはずですが、実際はばらつきが生じる可能性もあり、それらを検討する際に正規性が必要になってくるのです。

正規分布と標準偏差

正規性がどのような場面で必要とされているのかといった点に重点をおき具体例などを挙げてきました。では次に正規分布を作成するにあたり、どのような因子が正規分布を構成するのかなどといった点に触れていきます。

そもそも正規分布とは以下のようなグラフで、正規分布は平均値と標準偏差から構成されています。平均値を軸にして、その前後に標準偏差の値分、均等に広がっているグラフがもっともきれいな正規分布と言えます。

標準偏差の性質としては平均値の軸を中心として上下に34.1%ずつ、その次の割合が13.6%ずつ、そして最後の広がり部分が2.1%、0.1%ずつとなっています。これは、平均値:50、標準偏差:10となるように規格化したものであり、つまり40点から60点の間に全受験者の70%が入っていて60点以上の人は上位85%(=70+30/2)になることを指します。

いままで、単純に測定データ(標本)から計算される標準偏差を基に正規分布などを示しましたが、当サイトページ上部に記載したように測定値には標本と母集団が存在し、「推定される」母集団の標準偏差は標本の標準偏差よりすこし大きく生じます。よって標本の標準偏差ではnの部分をn−1で割り、STDEVP関数にて求めることが出来ます。

演習問題

正規分布をメインに話を進めてきましたが、以下はヒストグラムと基本統計量も含めた総復習的な演習問題になります。頻度を数える関数、分析ツールを使って、ヒストグラムの作成に挑戦してみてください。

アイコン
ヒストグラム課題用データ