🎯 背景:動画メディアにおけるA/Bテストの難しさ
YouTubeやTikTokなどのプラットフォームで動画メディアを運営する場合、**「Aの作り方」と「Bの作り方」**でどちらが良いかを比較したい場面は多くあります。
しかし、Webサイトのように十分なアクセス数が確保できるわけではなく、動画a1, a2, a3とb1, b2, b3というような少数サンプルで判断しなければならないケースが頻出します。
このような状況では、従来の正規分布+標準誤差に基づく統計検定は機能しません。さて、そのような場合の検定方法とは?
🎯 比較対象の再生数データ
グループ | 動画 | 再生数 |
---|---|---|
A作り | a1 | 1,200 |
a2 | 950 | |
a3 | 1,050 | |
B作り | b1 | 1,650 |
b2 | 1,700 | |
b3 | 1,600 |
- A群の平均再生数 = (1200 + 950 + 1050) ÷ 3 = 1,066.7
- B群の平均再生数 = (1650 + 1700 + 1600) ÷ 3 = 1,650.0
- 観測された差 = 1,650 – 1,066.7 = 583.3
🧪 ① パーミュテーションテスト(置換検定)
📘 目的:
「この583.3回の差は、本当に作り方の差なのか、それともたまたまか?」を検証。
🛠 手順:
- 6つの再生数を全部混ぜる:
→[1200, 950, 1050, 1650, 1700, 1600]
- 無作為に3本ずつに分けて、再生数の平均差を記録
- この操作を 10,000回繰り返す
- 差が583.3以上になる割合(=p値)を計算
🧮 結果(例):
- 10,000回のうち、583.3以上の差が出たのは140回
- → p値 = 140 / 10,000 = 0.014
✅ 結論:
p < 0.05 なので 「作り方により違いがある可能性が高い」と判断可能
🔄 ② ブートストラップ法(復元抽出)
📘 目的:
**差がどれくらい不確実か(信頼区間)**を知る。
🛠 手順:
- A群とB群からそれぞれ3本を復元抽出して平均を計算
- その差(B平均 − A平均)を記録
- この操作を 10,000回繰り返す
- 差の95%信頼区間を算出
🧮 結果(例):
- ブートストラップで得られた差の分布から:
- 2.5%点:+300
- 97.5%点:+800
- → 95%信頼区間:300〜800
✅ 結論:
- 差は常にプラス(B > A)
- 信頼区間に0が含まれないため、B作りのほうが有利な可能性が高い
🧠 補足:復元抽出とは?
たとえば A群 [1200, 950, 1050]
から3本を復元抽出すると:
- 1回目:1200
- 2回目:1200(もう一度選ばれた)
- 3回目:950
→ 例:[1200, 1200, 950]
の平均 = 1,116.7
これを何度も繰り返すことで、「平均再生数の揺らぎ」を推定できるのがブートストラップの強みです。
📊 まとめ表
比較項目 | パーミュテーションテスト | ブートストラップ法 |
---|---|---|
入力 | A群・B群の実データ | A群・B群の実データ |
出力 | p値(有意か否か) | 差の信頼区間 |
結果 | p = 0.014 → 有意差あり | CI = [300, 800] → Bの方が有利 |
判断 | 有意性の検定 | 効果の信頼性を測る |
✨ 最終判断
今回のように:
- 差は583.3回
- パーミュテーション検定でp = 0.014(有意)
- ブートストラップの95%信頼区間も0を含まない(Bの優位が安定)
という条件が揃えば、「Bの作り方の方が有効」と判断できると言えます。