ホーム » データサイエンス » 統計 » サンプル数と母平均との誤差の関係

サンプル数と母平均との誤差の関係

統計学において、標本(サンプル)から母集団の平均を推定する際、サンプル平均 $\bar{X}$ は母集団平均 $\mu$ の近似値となります。しかし、サンプル数が有限であるため、必ず推定誤差が生じます。この誤差を定量的に表す指標が 標準誤差(Standard Error, SE) です。


標準誤差の式(一般の平均)

標準誤差は次の式で表されます。

$$\mathrm{SE}(\bar{X}) = \frac{\sigma}{\sqrt{n}}$$

  • $\sigma$:母集団の標準偏差
  • $n$:サンプル数

この式から、サンプル数 $n$ が増えるほど、標準誤差は $1/\sqrt{n}$ の割合で小さくなることが分かります。
大きなサンプルサイズほど母平均の推定精度が向上します。


母集団の標準偏差が未知の場合

母分散($\sigma^2$)が未知である場合は、標本標準偏差 $s$ を用いて推定します。

$$\mathrm{SE}(\bar{X}) \approx \frac{s}{\sqrt{n}}$$


比率(%)の場合の標準誤差

平均が割合(比率)や確率として表される場合(例:アンケートで「はい」と答える割合)、母集団の分布は二項分布で近似できます。このとき、母標準偏差は $\sqrt{p(1-p)}$ であり、標準誤差は次の式で表されます。

$$\mathrm{SE}(p) = \sqrt{\frac{p(1-p)}{n}}$$

p:母比率(またはサンプル比率)

n:サンプル数

比率を%表示する場合は、計算後に100倍すればよいです。例えば、割合 $p=0.4$、$n=100$ の場合、誤差は約4.9%となります。


信頼区間との関係

母平均との差の範囲を一定の信頼度で示すために、信頼区間(Confidence Interval, CI) を用います。

  • 母分散が既知の場合(Z検定)
    $$\bar{X} \pm z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}$$
  • 母分散が未知の場合(t検定)
    $$\bar{X} \pm t_{\alpha/2,\,df} \cdot \frac{s}{\sqrt{n}}$$
  • 比率 $p$ の場合(Z検定)
    $$p \pm z_{\alpha/2} \cdot \sqrt{\frac{p(1-p)}{n}}$$

ここで、

  • $z_{\alpha/2}$:標準正規分布の上側確率 $\alpha/2$ に対応する値(95%信頼区間では1.96)
  • $t_{\alpha/2,\,df}$:自由度 $df = n-1$ の t 分布に基づく値

まとめ

  • 標準誤差(SE)は、標本平均または比率が母平均からどの程度ばらつくかを示す指標
  • サンプル数 $n$ が大きいほど、標準誤差は小さくなり推定精度が高まる
  • 確率的な割合(%)の場合は $p(1-p)$ を用いた式が適用される
  • 信頼区間を利用することで、推定誤差を確率的に評価できる

結論:母平均の推定誤差は $1/\sqrt{n}$ の法則に従って減少し、比率の場合も同様に $p(1-p)$ に基づいて評価されます。