80% аналитиков неправильно читают этот график
Когда мы проводим A/B, мы никогда не видим истинную величину эффекта. Мы нащупываем и видим только ее оценку на основе выборок.
Именно поэтому в тестах неизбежны ошибки I и II рода. И график выше наглядно показывает, откуда они берутся.
Но многие пытаются разглядеть на этом графике контрольную и тестовую выборки. Или воспринимают оба распределения как единое целое. На самом деле его нужно читать с двух сторон:
1. Когда в реальности эффекта нет ❌
Предположим, мы измеряем изменение конверсии в покупку.
Теперь смотрите только на распределение H₀ и игнорируйте H₁.
Если в реальности эффекта нет, то:
Δ = p₁ - p₀ = 0.
Но в реальном тесте мы почти никогда не увидим ровно ноль. Потому что истинные значения p₀ и p₁ нам неизвестны. Мы наблюдаем только выборочные оценки p̄₀ и p̄₁. И уже на их основе получаем оценку эффекта Δ′=p̄₁-p̄₀. Δ′ здесь отложен на оси Х.
Из-за погрешности выборочной оценки в одном тесте мы можем получить Δ′ = +0,1%, в другом -0,2%, в третьем +0,05%.
То есть, даже когда истинный эффект равен нулю, наблюдаемая дельта почти всегда будет ненулевой.
Именно это и показывает распределение H₀: какие значения оцененного эффекта (ось Х) и с какой вероятностью (ось Y) мы можем получить, если на самом деле эффекта нет.
И если наблюдаемая дельта в рамках H₀ попадает в красную критическую область, мы говорим: «Эффект есть, отклоняем H₀». Хотя на самом деле эффекта нет.
Это и есть ошибка I рода. Ее вероятность – α (обычно, 0.05).
2. Когда в реальности эффект есть ✅
Теперь наоборот: смотрите только на распределение H₁ и забудьте про H₀.
Это сценарий, в котором истинный эффект существует. Например, истинные значения: p₀ = 10%, p₁ = 10.25%. Значит, Δ = 0.25%.
Но и здесь мы не наблюдаем истинный эффект напрямую. Мы снова видим только оценку по выборкам. Поэтому в экспериментах мы можем наблюдать эффект Δ′ = +0.4%, +0.3%, +0.1%, а иногда даже ниже нуля.
Это и показывает распределение H₁: какие значения оцененного эффекта и с какой вероятностью мы можем увидеть, если эффект в реальности есть.
И если наблюдаемая дельта в рамках H₁ попадает в зеленую зону, мы не отклоняем H₀ и говорим: «Нет статистически значимой разницы». Хотя на самом деле эффект был. Просто тест не смог его обнаружить.
Это ошибка II рода. Ее вероятность – β (обычно, 0.2).
—
Любой A/B – это решение в условиях неопределенности. И мы не можем принимать решения со 100% гарантией.
Но мы можем контролировать уровни ошибок на длинной дистанции, если будем системно и корректно проводить эксперименты.
В этом и состоит суть статистических решений в экспериментах.
А если пост помог посмотреть на этот график иначе – поддержи его китом
A/B-тесты
Хочешь глубже разобраться в аналитике?
Посмотри программу курса по продуктовой аналитике и экспериментам.