タグ: 標本分散

  • t検定とz検定の違い、そして不偏分散の本当の意味とは?

    t検定とz検定の違い、そして不偏分散の本当の意味とは?

    統計の学習で多くの人が疑問を持つのが、

    なぜ t検定を使うのか?z検定ではダメなのか?

    という問いです。そして、それに関わる話としてよく出てくるのが「不偏分散」という概念。しかし、学校で一度聞いたはずなのに、何度聞いても腑に落ちない──そんな感覚を持っている方も多いのではないでしょうか?この記事では、t検定とz検定の使い分けの理由、そして不偏分散の意味を、本質に立ち返って丁寧に解説します。


    1. 事例:Amazonの平均値に関する検定問題

    ある問題では、以下のような情報が与えられていました:

    • 標本平均 $ \bar{x} = 3.23 $
    • 標本標準偏差(不偏分散から求めたもの)$ s = 8.72 $
    • 標本サイズ $ n = 24 $
    • 母平均 $ \mu = 0 $ に対する有意性の検定

    ここで計算された t 値は:

    $$t = \frac{3.23 – 0}{8.72 / \sqrt{24}} = 1.8146$$

    そして自由度23の t分布を用いた検定が行われました。


    2. なぜ t検定なのか?z検定ではダメなのか?

    ✅ t検定が使われる理由:

    • 母分散 $ \sigma^2 $ が 未知 である。
    • 標本サイズが 小さい($n < 30$)

    この2つの条件により、t検定を使うのが妥当とされます。

    ✅ z検定が使える場合:

    • 母分散が 既知 である。
    • または、標本サイズが 大きく($n \ge 30$)、中心極限定理により正規分布近似が成立するとき。

    この問題では、母分散は与えられておらず、不偏分散($ s^2 $)を使って推定しているだけなので、z検定は使えません。


    3. 不偏分散の正体とは?

    高校では次のような式を習った記憶がある方も多いと思います:

    • 偏差平方和:
      $$\sum_{i=1}^n (x_i – \bar{x})^2$$
    • 標本分散:
      $$\frac{1}{n} \sum_{i=1}^n (x_i – \bar{x})^2$$
    • 不偏分散:
      $$\frac{1}{n – 1} \sum_{i=1}^n (x_i – \bar{x})^2$$

    この違いは、$ x_1, \dots, x_n $ が母集団か標本かという違いと、$ \bar{x} $ を使うことによるバイアス補正の違いに由来します。

    標本分散と不偏分散の違い

    分散の種類数式平均値分母特徴
    母分散 $ \sigma^2 $$ \frac{1}{N} \sum (x_i – \mu)^2 $母平均 $ \mu $$N$理論上の真のばらつき
    標本分散$ \frac{1}{n} \sum (x_i – \bar{x})^2 $標本平均 $ \bar{x} $$n$実測値ベースのばらつき
    不偏分散$ \frac{1}{n-1} \sum (x_i – \bar{x})^2 $標本平均 $ \bar{x} $$n-1$母分散の推定にバイアスがないよう補正

    不偏分散は、$ \bar{x} $ を使うことで生じる過小評価を補正するために導入されます。


    4. まとめ

    • t検定を使うのは、母分散 $ \sigma^2 $ が未知で、$s$を使って推定しているから。
    • $s$が与えられていても、それは「母分散がわかった」という意味にはならない。
    • 不偏分散とは、母分散を期待値として正しく推定するために $n−1$ で割る調整がされた推定量。

    t検定やz検定、不偏分散は、すべて \”推定\” の不確かさにどう向き合うかという問題に根差しています。これを理解すれば、統計検定の本質がよりクリアに見えてくるはずです。