カテゴリー: 統計

  • t検定とz検定の違い、そして不偏分散の本当の意味とは?

    t検定とz検定の違い、そして不偏分散の本当の意味とは?

    統計の学習で多くの人が疑問を持つのが、

    なぜ t検定を使うのか?z検定ではダメなのか?

    という問いです。そして、それに関わる話としてよく出てくるのが「不偏分散」という概念。しかし、学校で一度聞いたはずなのに、何度聞いても腑に落ちない──そんな感覚を持っている方も多いのではないでしょうか?この記事では、t検定とz検定の使い分けの理由、そして不偏分散の意味を、本質に立ち返って丁寧に解説します。


    1. 事例:Amazonの平均値に関する検定問題

    ある問題では、以下のような情報が与えられていました:

    • 標本平均 $ \bar{x} = 3.23 $
    • 標本標準偏差(不偏分散から求めたもの)$ s = 8.72 $
    • 標本サイズ $ n = 24 $
    • 母平均 $ \mu = 0 $ に対する有意性の検定

    ここで計算された t 値は:

    $$t = \frac{3.23 – 0}{8.72 / \sqrt{24}} = 1.8146$$

    そして自由度23の t分布を用いた検定が行われました。


    2. なぜ t検定なのか?z検定ではダメなのか?

    ✅ t検定が使われる理由:

    • 母分散 $ \sigma^2 $ が 未知 である。
    • 標本サイズが 小さい($n < 30$)

    この2つの条件により、t検定を使うのが妥当とされます。

    ✅ z検定が使える場合:

    • 母分散が 既知 である。
    • または、標本サイズが 大きく($n \ge 30$)、中心極限定理により正規分布近似が成立するとき。

    この問題では、母分散は与えられておらず、不偏分散($ s^2 $)を使って推定しているだけなので、z検定は使えません。


    3. 不偏分散の正体とは?

    高校では次のような式を習った記憶がある方も多いと思います:

    • 偏差平方和:
      $$\sum_{i=1}^n (x_i – \bar{x})^2$$
    • 標本分散:
      $$\frac{1}{n} \sum_{i=1}^n (x_i – \bar{x})^2$$
    • 不偏分散:
      $$\frac{1}{n – 1} \sum_{i=1}^n (x_i – \bar{x})^2$$

    この違いは、$ x_1, \dots, x_n $ が母集団か標本かという違いと、$ \bar{x} $ を使うことによるバイアス補正の違いに由来します。

    標本分散と不偏分散の違い

    分散の種類数式平均値分母特徴
    母分散 $ \sigma^2 $$ \frac{1}{N} \sum (x_i – \mu)^2 $母平均 $ \mu $$N$理論上の真のばらつき
    標本分散$ \frac{1}{n} \sum (x_i – \bar{x})^2 $標本平均 $ \bar{x} $$n$実測値ベースのばらつき
    不偏分散$ \frac{1}{n-1} \sum (x_i – \bar{x})^2 $標本平均 $ \bar{x} $$n-1$母分散の推定にバイアスがないよう補正

    不偏分散は、$ \bar{x} $ を使うことで生じる過小評価を補正するために導入されます。


    4. まとめ

    • t検定を使うのは、母分散 $ \sigma^2 $ が未知で、$s$を使って推定しているから。
    • $s$が与えられていても、それは「母分散がわかった」という意味にはならない。
    • 不偏分散とは、母分散を期待値として正しく推定するために $n−1$ で割る調整がされた推定量。

    t検定やz検定、不偏分散は、すべて \”推定\” の不確かさにどう向き合うかという問題に根差しています。これを理解すれば、統計検定の本質がよりクリアに見えてくるはずです。

  • Z検定とT検定の本質を体系的に理解する

    Z検定とT検定の本質を体系的に理解する

    ✅ はじめに

    統計検定2級の学習において、Z検定とT検定の違いは最重要テーマのひとつです。
    この記事では、**「検定統計量とは何か」**を本質から整理し、Z検定とT検定の違いを体系的にまとめます。


    ✅ 1. 検定統計量とは何か?

    検定統計量とは、簡単にいうと

    「観測されたズレを、ズレが自然に起こる標準的な大きさで割ったもの」

    です。

    式で書くと、一般形はこうなります。

    $$ \text{検定統計量} = \frac{\text{観測された差}}{\text{標準誤差}} $$

    • 観測された差:標本平均 $\overline{X}$ と仮説上の母平均 $\mu$ の差
    • 標準誤差:その差が偶然生じる「標準的な幅」

    ✅ 2. Z検定とは?(母標準偏差が既知の場合)

    ◆ Z検定の検定統計量

    母標準偏差 $\sigma$ が既知の場合、Z検定では以下のように検定統計量 $Z$ を定義します。

    $$ Z = \frac{\overline{X} – \mu}{\frac{\sigma}{\sqrt{n}}} $$

    • 分子:標本平均と母平均の差
    • 分母:標本平均の標準偏差(=母標準偏差を $\sqrt{n}$ で割ったもの)

    ◆ ポイント

    • 元データの標準偏差 $\sigma$ が分かっている前提
    • 標本平均のばらつき(標準誤差)は $\sigma / \sqrt{n}$
    • 使う分布は標準正規分布(Z分布)

    ✅ 3. T検定とは?(母標準偏差が未知の場合)

    ◆ T検定の検定統計量

    母標準偏差 $\sigma$ が未知の場合、標本標準偏差 $S$ を使って検定します。
    このときの検定統計量 $T$ は次のように定義されます。

    $$ T = \frac{\overline{X} – \mu}{\frac{S}{\sqrt{n}}} $$

    • 分子:標本平均と母平均の差
    • 分母:標本標準偏差 $S$ を使った標準誤差

    ◆ ポイント

    • 母標準偏差 $\sigma$ を推定するので不確かさが増える
    • ばらつきが大きくなり、標準正規分布よりも裾の広いt分布を使う
    • t分布の自由度は $n-1$

    ✅ 4. 標本標準偏差と標準誤差の違い

    ここでよく混同しがちな違いを整理します。

    用語 定義 意味
    標本標準偏差 $S$ $S = \sqrt{\frac{1}{n-1} \sum (X_i – \overline{X})^2}$ 元データ $X$ のばらつき
    標準誤差(SE) $\text{SE} = \frac{S}{\sqrt{n}}$ 標本平均 $\overline{X}$ のばらつき

    つまり、
    検定統計量の分母に使うのは、標本平均の標準偏差(標準誤差)
    です!


    ✅ 5. まとめ表

    Z検定 T検定
    母標準偏差 $\sigma$ 既知 未知(推定)
    分母 $\sigma/\sqrt{n}$ $S/\sqrt{n}$
    使用分布 標準正規分布(Z分布) t分布(自由度 $n-1$)
    分散の求め方 母集団の値 標本から計算(2乗和を使う)

    ✅ おわりに

    ここまで整理できれば、Z検定とT検定の違いはほぼ完璧に理解できています。

    • 2標本T検定
    • 分散分析(ANOVA)
    • 回帰分析の検定 などでもこの「ズレ ÷ 標準誤差」という発想がベースになります。
  • ABテストで有意差を確認する方法 ― 標準誤差・Z値・P値の関係とは? ―

    ABテストで有意差を確認する方法 ― 標準誤差・Z値・P値の関係とは? ―

    ABテストを行う際、「AとBでクリック率に差があったけど、それって本当に意味があるの?」という疑問が出てきますよね。 その疑問に答えるのが、「標準誤差」「Z値」「P値」という統計的な指標です。


    標準誤差とは?

    ある確率 $P$ の現象(例:クリックされる確率)について、サンプル数 $n$ に対するばらつきを表すのが標準誤差 $\sigma$ です。

    $$\sigma=\sqrt{\dfrac{P(1-P)}{n}}$$


    ABテストでの応用

    • パターンAのクリック率:$P_A$
    • パターンBのクリック率:$P_B$
    • サンプル数:それぞれ $n_A$、$n_B$

    全体の平均クリック率(プール確率)は次のように求めます:

    $$P = \dfrac{n_A P_A + n_B P_B}{n_A + n_B}$$

    このときの標準誤差は:

    $$\sigma=\sqrt{P(1-P) \left( \dfrac{1}{n_A} + \dfrac{1}{n_B} \right) }$$


    Z値とは?

    パターンAとBのクリック率の差が、標準誤差の何倍か?を表すのがZ値です:

    $Z = \dfrac{ P_A – P_B }{\sigma}$


    P値とは?信頼区間との関係

    Z値が導かれたら、「それが偶然どれくらい起こる確率か?」を表すのが P値。 そして「その差が統計的に有意かどうか」の判断に使います。

    P値 信頼区間 Z値(両側検定)
    0.20 80% ±1.28
    0.15 85% ±1.44
    0.10 90% ±1.645
    0.05 95% ±1.96
    0.01 99% ±2.576

    ExcelやGoogleスプレッドシートでのP値の求め方

    難しい数式を使わなくても、Z値がわかれば以下の関数でP値を計算できます:

    =2 * (1 - NORM.S.DIST(ABS("Z値"), TRUE))
    

    身近な感覚としての「5%」「20%」

    実は、P値の5%という水準って、案外わたしたちの生活感覚とリンクしていたりします。

    たとえば小中学生のころ、「学年でみんなが好きになるような人気者」って、だいたい20人に1人、全体の5%くらいだった気がしませんか? 日本人の左利きの割合も5%くらい。 逆に、クラスで「よく一緒に遊ぶ同性の友達」は5人に1人=20%くらい。 この「ちょっと特別」な割合が、統計にも出てくるんです。

    仕事でも似た感覚があって、

    • 5案出せば、そこそこいいアイデアが1つくらいは出る
    • 20案出せば、これはイケる!って案が1つくらい出る

    そんな体感、ありませんか?

    統計のP値や信頼区間はあくまで理論的なものですが、 自分の体感値とリンクさせることで、数字がぐっと身近に感じられるようになります。

    まとめ

    ABテストで差が「偶然なのか」「有意な違いなのか」を判断するために、

    • 標準誤差:ばらつきの度合い
    • Z値:差が標準誤差の何倍か
    • P値:その差が偶然起きる確率

    を順にチェックするのが基本です。