A/B-тесты и статистика

80% аналитиков неправильно читают этот график

3 мин чтения·Павел Бухтик·Оригинал в Telegram ↗

Когда мы проводим A/B, мы никогда не видим истинную величину эффекта. Мы нащупываем и видим только ее оценку на основе выборок.

Именно поэтому в тестах неизбежны ошибки I и II рода. И график выше наглядно показывает, откуда они берутся.

Но многие пытаются разглядеть на этом графике контрольную и тестовую выборки. Или воспринимают оба распределения как единое целое. На самом деле его нужно читать с двух сторон:

1. Когда в реальности эффекта нет ❌

Предположим, мы измеряем изменение конверсии в покупку.

Теперь смотрите только на распределение H₀ и игнорируйте H₁.

Если в реальности эффекта нет, то:

Δ = p₁ - p₀ = 0.

Но в реальном тесте мы почти никогда не увидим ровно ноль. Потому что истинные значения p₀ и p₁ нам неизвестны. Мы наблюдаем только выборочные оценки p̄₀ и p̄₁. И уже на их основе получаем оценку эффекта Δ′=p̄₁-p̄₀. Δ′ здесь отложен на оси Х.

Из-за погрешности выборочной оценки в одном тесте мы можем получить Δ′ = +0,1%, в другом -0,2%, в третьем +0,05%.

То есть, даже когда истинный эффект равен нулю, наблюдаемая дельта почти всегда будет ненулевой.

Именно это и показывает распределение H₀: какие значения оцененного эффекта (ось Х) и с какой вероятностью (ось Y) мы можем получить, если на самом деле эффекта нет.

И если наблюдаемая дельта в рамках H₀ попадает в красную критическую область, мы говорим: «Эффект есть, отклоняем H₀». Хотя на самом деле эффекта нет.

Это и есть ошибка I рода. Ее вероятность – α (обычно, 0.05).

2. Когда в реальности эффект есть ✅

Теперь наоборот: смотрите только на распределение H₁ и забудьте про H₀.

Это сценарий, в котором истинный эффект существует. Например, истинные значения: p₀ = 10%, p₁ = 10.25%. Значит, Δ = 0.25%.

Но и здесь мы не наблюдаем истинный эффект напрямую. Мы снова видим только оценку по выборкам. Поэтому в экспериментах мы можем наблюдать эффект Δ′ = +0.4%, +0.3%, +0.1%, а иногда даже ниже нуля.

Это и показывает распределение H₁: какие значения оцененного эффекта и с какой вероятностью мы можем увидеть, если эффект в реальности есть.

И если наблюдаемая дельта в рамках H₁ попадает в зеленую зону, мы не отклоняем H₀ и говорим: «Нет статистически значимой разницы». Хотя на самом деле эффект был. Просто тест не смог его обнаружить.

Это ошибка II рода. Ее вероятность – β (обычно, 0.2).

—

Любой A/B – это решение в условиях неопределенности. И мы не можем принимать решения со 100% гарантией.

Но мы можем контролировать уровни ошибок на длинной дистанции, если будем системно и корректно проводить эксперименты.

В этом и состоит суть статистических решений в экспериментах.

А если пост помог посмотреть на этот график иначе – поддержи его китом

A/B-тесты

Хочешь системно разобраться в A/B?

Начни с roadmap и чеклиста: они помогут пройти путь от постановки гипотезы до интерпретации результатов эксперимента.

Открыть Roadmap Скачать чеклист Смотреть курс по A/B

80% аналитиков неправильно читают этот график

Хочешь системно разобраться в A/B?

Похожие материалы

Задача на дизайн A/B-эксперимента в Ozon Fresh

Почему 8 из 10 A/B-тестов бесполезны (и как это исправить)?

Как деление 90/10 может убить репрезентативность A/B-теста

Почему в A/B сравнивают средние, а не «общие» метрики?

Разбираю задачи и пишу про карьеру в аналитике

Telegram-канал

Вакансии · @nodatanojobs

Instagram

YouTube

LinkedIn