ホーム » データサイエンス » 統計 » 🎥 少数サンプルでの動画A/Bテスト:具体的な数値例で理解する

🎥 少数サンプルでの動画A/Bテスト:具体的な数値例で理解する


🎯 背景:動画メディアにおけるA/Bテストの難しさ

YouTubeやTikTokなどのプラットフォームで動画メディアを運営する場合、**「Aの作り方」と「Bの作り方」**でどちらが良いかを比較したい場面は多くあります。

しかし、Webサイトのように十分なアクセス数が確保できるわけではなく、動画a1, a2, a3とb1, b2, b3というような少数サンプルで判断しなければならないケースが頻出します。

このような状況では、従来の正規分布+標準誤差に基づく統計検定は機能しません。さて、そのような場合の検定方法とは?


🎯 比較対象の再生数データ

グループ動画再生数
A作りa11,200
a2950
a31,050
B作りb11,650
b21,700
b31,600
  • A群の平均再生数 = (1200 + 950 + 1050) ÷ 3 = 1,066.7
  • B群の平均再生数 = (1650 + 1700 + 1600) ÷ 3 = 1,650.0
  • 観測された差 = 1,650 – 1,066.7 = 583.3

🧪 ① パーミュテーションテスト(置換検定)

📘 目的:

「この583.3回の差は、本当に作り方の差なのか、それともたまたまか?」を検証。

🛠 手順:

  1. 6つの再生数を全部混ぜる:
     → [1200, 950, 1050, 1650, 1700, 1600]
  2. 無作為に3本ずつに分けて、再生数の平均差を記録
  3. この操作を 10,000回繰り返す
  4. 差が583.3以上になる割合(=p値)を計算

🧮 結果(例):

  • 10,000回のうち、583.3以上の差が出たのは140回
  • → p値 = 140 / 10,000 = 0.014

✅ 結論:

p < 0.05 なので 「作り方により違いがある可能性が高い」と判断可能


🔄 ② ブートストラップ法(復元抽出)

📘 目的:

**差がどれくらい不確実か(信頼区間)**を知る。

🛠 手順:

  1. A群とB群からそれぞれ3本を復元抽出して平均を計算
  2. その差(B平均 − A平均)を記録
  3. この操作を 10,000回繰り返す
  4. 差の95%信頼区間を算出

🧮 結果(例):

  • ブートストラップで得られた差の分布から:
    • 2.5%点:+300
    • 97.5%点:+800
    • 95%信頼区間:300〜800

✅ 結論:

  • 差は常にプラス(B > A)
  • 信頼区間に0が含まれないため、B作りのほうが有利な可能性が高い

🧠 補足:復元抽出とは?

たとえば A群 [1200, 950, 1050] から3本を復元抽出すると:

  • 1回目:1200
  • 2回目:1200(もう一度選ばれた)
  • 3回目:950
    → 例: [1200, 1200, 950] の平均 = 1,116.7

これを何度も繰り返すことで、「平均再生数の揺らぎ」を推定できるのがブートストラップの強みです。


📊 まとめ表

比較項目パーミュテーションテストブートストラップ法
入力A群・B群の実データA群・B群の実データ
出力p値(有意か否か)差の信頼区間
結果p = 0.014 → 有意差ありCI = [300, 800] → Bの方が有利
判断有意性の検定効果の信頼性を測る

✨ 最終判断

今回のように:

  • 差は583.3回
  • パーミュテーション検定でp = 0.014(有意)
  • ブートストラップの95%信頼区間も0を含まない(Bの優位が安定)

という条件が揃えば、「Bの作り方の方が有効」と判断できると言えます。