統計には大きく2つある。記述統計と推測統計だ。
記述統計は、調査対象集団の性質のデータを、有意な形に要約して記述することが目的の統計。ここでは調査者が調査対象集団についての必要な情報を全て手に入れられることが前提になっている。例えば、あるクラスの数学の試験の平均を求めたい場合などだ。クラス全員の学力の傾向を調べたいために、クラス全員の学力の平均や偏差値を計算するわけだ。
一方、推測統計は、調査者が調査対象集団についての必要な情報の全ては手に入らないが、何らかの調査をしてその結果から対象集団の性質を推測することを目的とするものだ。日本の中学3年生の学力傾向を調べたい時に、本当に日本の中学3年生全員を対象に調査を行うと非常に多くのお金と労力が必要になる。それを避けるため、全国から無作為に中学生を抽出して学力試験を行い、その結果を基に日本全体の中学3年生の学力傾向を推測しようと考える。これが推測統計だ。
推測統計を行う場合、上記に書いたとおり対象(上の例だと日本の全中学3年生)から「無作為」に標本(サンプル)を抽出し、その性質を調査するのが原則だ。
「無作為」に標本を抜き出すため、標本統計量(標本から計算される統計量:標本平均や標本分散など)は、標本の抜き出し方によって「偶然決まる量」であり、すなわち確率変数だ。
標本から母数(母集団の各統計量)を推定する際には、この確率変数である標本統計量の確率分布(=標本分布)がどのような性質があるのかを知っていないといけないし、調査に説得力が生まれない。
以下に一例を示す。
■算術平均
統計量が算術平均の場合、以下の性質がある。
記述統計は、調査対象集団の性質のデータを、有意な形に要約して記述することが目的の統計。ここでは調査者が調査対象集団についての必要な情報を全て手に入れられることが前提になっている。例えば、あるクラスの数学の試験の平均を求めたい場合などだ。クラス全員の学力の傾向を調べたいために、クラス全員の学力の平均や偏差値を計算するわけだ。
一方、推測統計は、調査者が調査対象集団についての必要な情報の全ては手に入らないが、何らかの調査をしてその結果から対象集団の性質を推測することを目的とするものだ。日本の中学3年生の学力傾向を調べたい時に、本当に日本の中学3年生全員を対象に調査を行うと非常に多くのお金と労力が必要になる。それを避けるため、全国から無作為に中学生を抽出して学力試験を行い、その結果を基に日本全体の中学3年生の学力傾向を推測しようと考える。これが推測統計だ。
推測統計を行う場合、上記に書いたとおり対象(上の例だと日本の全中学3年生)から「無作為」に標本(サンプル)を抽出し、その性質を調査するのが原則だ。
「無作為」に標本を抜き出すため、標本統計量(標本から計算される統計量:標本平均や標本分散など)は、標本の抜き出し方によって「偶然決まる量」であり、すなわち確率変数だ。
標本から母数(母集団の各統計量)を推定する際には、この確率変数である標本統計量の確率分布(=標本分布)がどのような性質があるのかを知っていないといけないし、調査に説得力が生まれない。
以下に一例を示す。
■算術平均
統計量が算術平均の場合、以下の性質がある。
- 母集団の分布がどのような分布でも、
- 母平均=標本平均となる。(つまり不偏性がある。)
- 標本平均の標準誤差=標準偏差は\(\sigma/\sqrt{\mathstrut n}\)となる。(ここで\(\sigma\)は母標準偏差、\(n\)はサンプル数)
- 母集団分布が正規分布であれば標本平均の標本分布も正規分布となる。
- 母集団分布が正規分布でない場合は、標本平均の標本分布は正規分布とはならないが、サンプル数が多い場合の標本平均の標本分布は、正規分布に近づく。(中心極限定理)
■分散
統計量が分散の場合、以下の性質がある。
- 母分散=不偏分散(※)の算術平均(つまり不偏性がある。不偏分散という名前もここからきている。)
- 上記のとおり不偏分散の算術平均は母分散と一致するが、不偏分散の確率分布のピーク(最頻値)は母分散とは一致しない。
(※)以下で定義される分散。ここでn-1で割るかわりにnで割る量を標本分散と呼ぶ。
\[\sigma^2 = \frac{\sum_{i} (x_i - \bar{x})^2}{n-1}\]
0 件のコメント:
コメントを投稿