A/B-тесты и статистика

В чем разница MDE vs Effect Size vs Uplift, и как перестать их путать

2 мин чтения·Павел Бухтик·Оригинал в Telegram ↗

Эти понятия часто ошибочно взаимозаменяются при работе с A/B на практике. Но они, конечно же, совершенно о разном. Сегодня разложу их для вас по полочкам.

MDE (Minimum Detectable Effect) — это наименьший истинный эффект, полученный от изменений, который с заданными статистической значимостью и мощностью сможет обнаружить конкретный статистический критерий.

Это тот самый эффект, который определяется на этапе дизайна эксперимента. Он говорит о том, какой эффект от эксперимента мы ожидаем засечь. Рассчитывается как разница между средними текущего значения метрики (baseline'а) и его желаемым значением на основе некоторой нашей оценки: x1 - x2. Как можно оценить MDE для эксперимента – уже рассказывал здесь.

Когда в рамках A/B-тестов говорится об Effect Size (размер эффекта) – в большинстве случаев речь идет о Cohen's D (d-Коэна). Cohen's D – это стандартизированный MDE. Грубо говоря, MDE с учетом дисперсии метрики.

Идея расчета проста: разность между средними двух выборок делится на их общее стандартное отклонение — в результате получается разность, измеренная в стандартных отклонениях: (x1 - x2) / std, где std = (std1 + std2) / 2.

Зачем может пригодиться Effect Size на практике? Можно выделить 2 причины:

1. Для какой-то метрики рост в 1% – это очень много. А для другой в 5% – может быть мало. Причина этому – различные дисперсии метрик. Благодаря Effect Size можно свести все к единой шкале для всех метрик: d = 0.2 – маленький эффект, 0.5 – средний, 0.8 – большой и т. д;

2. Функции по расчету размера выборки statsmodels (tt_ind_solve_power, TTestIndPower().solve_power, NormalIndPower().solve_power) – в качестве аргумента effect_size требуют именно Effect Size, т. е. Cohen's D. Часто по ошибке этим функциям скармливается MDE.

Uplift (Lift, прирост) - фактическое изменение метрики в % непосредственно по итогам A/B: (x1 - x2) / x2. Это то, что мы проверяем на статистическую значимость, и на основе чего принимаем решение об успешности эксперимента.

Важно понимать, что MDE и Effect Size интересуют нас только на этапе дизайна эксперимента – после дизайна, забываем про них и смотрим только на статистическую значимость Uplift'а. Пытаться сравнивать Uplift и MDE будет грубой методологической ошибкой, которая часто встречается.

Хочешь системно разобраться в A/B?

Начни с roadmap и чеклиста: они помогут пройти путь от постановки гипотезы до интерпретации результатов эксперимента.

Открыть Roadmap Скачать чеклист Смотреть курс по A/B

В чем разница MDE vs Effect Size vs Uplift, и как перестать их путать

Хочешь системно разобраться в A/B?

Похожие материалы

Словарь полезных терминов в A/B

Задача на дизайн A/B-эксперимента в Ozon Fresh

Как работать с проблемой множественного сравнения в A/B-тестировании?

Разбор кейса A/B-теста увеличения продаж годового тарифа

Разбираю задачи и пишу про карьеру в аналитике

Telegram-канал

Вакансии · @nodatanojobs

Instagram

YouTube

LinkedIn