В чем разница MDE vs Effect Size vs Uplift, и как перестать их путать
Эти понятия часто ошибочно взаимозаменяются при работе с A/B на практике. Но они, конечно же, совершенно о разном. Сегодня разложу их для вас по полочкам.
MDE (Minimum Detectable Effect) — это наименьший истинный эффект, полученный от изменений, который с заданными статистической значимостью и мощностью сможет обнаружить конкретный статистический критерий.
Это тот самый эффект, который определяется на этапе дизайна эксперимента. Он говорит о том, какой эффект от эксперимента мы ожидаем засечь. Рассчитывается как разница между средними текущего значения метрики (baseline'а) и его желаемым значением на основе некоторой нашей оценки: x1 - x2. Как можно оценить MDE для эксперимента – уже рассказывал здесь.
Когда в рамках A/B-тестов говорится об Effect Size (размер эффекта) – в большинстве случаев речь идет о Cohen's D (d-Коэна). Cohen's D – это стандартизированный MDE. Грубо говоря, MDE с учетом дисперсии метрики.
Идея расчета проста: разность между средними двух выборок делится на их общее стандартное отклонение — в результате получается разность, измеренная в стандартных отклонениях: (x1 - x2) / std, где std = (std1 + std2) / 2.
Зачем может пригодиться Effect Size на практике? Можно выделить 2 причины:
1. Для какой-то метрики рост в 1% – это очень много. А для другой в 5% – может быть мало. Причина этому – различные дисперсии метрик. Благодаря Effect Size можно свести все к единой шкале для всех метрик: d = 0.2 – маленький эффект, 0.5 – средний, 0.8 – большой и т. д;
2. Функции по расчету размера выборки statsmodels (tt_ind_solve_power, TTestIndPower().solve_power, NormalIndPower().solve_power) – в качестве аргумента effect_size требуют именно Effect Size, т. е. Cohen's D. Часто по ошибке этим функциям скармливается MDE.
Uplift (Lift, прирост) - фактическое изменение метрики в % непосредственно по итогам A/B: (x1 - x2) / x2. Это то, что мы проверяем на статистическую значимость, и на основе чего принимаем решение об успешности эксперимента.
Важно понимать, что MDE и Effect Size интересуют нас только на этапе дизайна эксперимента – после дизайна, забываем про них и смотрим только на статистическую значимость Uplift'а. Пытаться сравнивать Uplift и MDE будет грубой методологической ошибкой, которая часто встречается.
Хочешь глубже разобраться в аналитике?
Посмотри программу курса по продуктовой аналитике и экспериментам.