統計学において、標本(サンプル)から母集団の平均を推定する際、サンプル平均 $\bar{X}$ は母集団平均 $\mu$ の近似値となります。しかし、サンプル数が有限であるため、必ず推定誤差が生じます。この誤差を定量的に表す指標が 標準誤差(Standard Error, SE) です。
標準誤差の式(一般の平均)
標準誤差は次の式で表されます。
$$\mathrm{SE}(\bar{X}) = \frac{\sigma}{\sqrt{n}}$$
- $\sigma$:母集団の標準偏差
- $n$:サンプル数
この式から、サンプル数 $n$ が増えるほど、標準誤差は $1/\sqrt{n}$ の割合で小さくなることが分かります。
➡ 大きなサンプルサイズほど母平均の推定精度が向上します。
母集団の標準偏差が未知の場合
母分散($\sigma^2$)が未知である場合は、標本標準偏差 $s$ を用いて推定します。
$$\mathrm{SE}(\bar{X}) \approx \frac{s}{\sqrt{n}}$$
比率(%)の場合の標準誤差
平均が割合(比率)や確率として表される場合(例:アンケートで「はい」と答える割合)、母集団の分布は二項分布で近似できます。このとき、母標準偏差は $\sqrt{p(1-p)}$ であり、標準誤差は次の式で表されます。
$$\mathrm{SE}(p) = \sqrt{\frac{p(1-p)}{n}}$$
p:母比率(またはサンプル比率)
n:サンプル数
比率を%表示する場合は、計算後に100倍すればよいです。例えば、割合 $p=0.4$、$n=100$ の場合、誤差は約4.9%となります。
信頼区間との関係
母平均との差の範囲を一定の信頼度で示すために、信頼区間(Confidence Interval, CI) を用います。
- 母分散が既知の場合(Z検定)
$$\bar{X} \pm z_{\alpha/2} \cdot \frac{\sigma}{\sqrt{n}}$$ - 母分散が未知の場合(t検定)
$$\bar{X} \pm t_{\alpha/2,\,df} \cdot \frac{s}{\sqrt{n}}$$ - 比率 $p$ の場合(Z検定)
$$p \pm z_{\alpha/2} \cdot \sqrt{\frac{p(1-p)}{n}}$$
ここで、
- $z_{\alpha/2}$:標準正規分布の上側確率 $\alpha/2$ に対応する値(95%信頼区間では1.96)
- $t_{\alpha/2,\,df}$:自由度 $df = n-1$ の t 分布に基づく値
まとめ
- 標準誤差(SE)は、標本平均または比率が母平均からどの程度ばらつくかを示す指標
- サンプル数 $n$ が大きいほど、標準誤差は小さくなり推定精度が高まる
- 確率的な割合(%)の場合は $p(1-p)$ を用いた式が適用される
- 信頼区間を利用することで、推定誤差を確率的に評価できる
✅ 結論:母平均の推定誤差は $1/\sqrt{n}$ の法則に従って減少し、比率の場合も同様に $p(1-p)$ に基づいて評価されます。