統計の学習で多くの人が疑問を持つのが、
なぜ t検定を使うのか?z検定ではダメなのか?
という問いです。そして、それに関わる話としてよく出てくるのが「不偏分散」という概念。しかし、学校で一度聞いたはずなのに、何度聞いても腑に落ちない──そんな感覚を持っている方も多いのではないでしょうか?この記事では、t検定とz検定の使い分けの理由、そして不偏分散の意味を、本質に立ち返って丁寧に解説します。
1. 事例:Amazonの平均値に関する検定問題
ある問題では、以下のような情報が与えられていました:
- 標本平均 $ \bar{x} = 3.23 $
- 標本標準偏差(不偏分散から求めたもの)$ s = 8.72 $
- 標本サイズ $ n = 24 $
- 母平均 $ \mu = 0 $ に対する有意性の検定
ここで計算された t 値は:
$$t = \frac{3.23 – 0}{8.72 / \sqrt{24}} = 1.8146$$
そして自由度23の t分布を用いた検定が行われました。
2. なぜ t検定なのか?z検定ではダメなのか?
✅ t検定が使われる理由:
- 母分散 $ \sigma^2 $ が 未知 である。
- 標本サイズが 小さい($n < 30$)。
この2つの条件により、t検定を使うのが妥当とされます。
✅ z検定が使える場合:
- 母分散が 既知 である。
- または、標本サイズが 大きく($n \ge 30$)、中心極限定理により正規分布近似が成立するとき。
この問題では、母分散は与えられておらず、不偏分散($ s^2 $)を使って推定しているだけなので、z検定は使えません。
3. 不偏分散の正体とは?
高校では次のような式を習った記憶がある方も多いと思います:
- 偏差平方和:
$$\sum_{i=1}^n (x_i – \bar{x})^2$$ - 標本分散:
$$\frac{1}{n} \sum_{i=1}^n (x_i – \bar{x})^2$$ - 不偏分散:
$$\frac{1}{n – 1} \sum_{i=1}^n (x_i – \bar{x})^2$$
この違いは、$ x_1, \dots, x_n $ が母集団か標本かという違いと、$ \bar{x} $ を使うことによるバイアス補正の違いに由来します。
標本分散と不偏分散の違い
分散の種類 | 数式 | 平均値 | 分母 | 特徴 |
---|---|---|---|---|
母分散 $ \sigma^2 $ | $ \frac{1}{N} \sum (x_i – \mu)^2 $ | 母平均 $ \mu $ | $N$ | 理論上の真のばらつき |
標本分散 | $ \frac{1}{n} \sum (x_i – \bar{x})^2 $ | 標本平均 $ \bar{x} $ | $n$ | 実測値ベースのばらつき |
不偏分散 | $ \frac{1}{n-1} \sum (x_i – \bar{x})^2 $ | 標本平均 $ \bar{x} $ | $n-1$ | 母分散の推定にバイアスがないよう補正 |
不偏分散は、$ \bar{x} $ を使うことで生じる過小評価を補正するために導入されます。
4. まとめ
- ✅ t検定を使うのは、母分散 $ \sigma^2 $ が未知で、$s$を使って推定しているから。
- ✅ $s$が与えられていても、それは「母分散がわかった」という意味にはならない。
- ✅ 不偏分散とは、母分散を期待値として正しく推定するために $n−1$ で割る調整がされた推定量。
t検定やz検定、不偏分散は、すべて \”推定\” の不確かさにどう向き合うかという問題に根差しています。これを理解すれば、統計検定の本質がよりクリアに見えてくるはずです。