О чем говорит формула размера выборки для A/B?
Одинаково важная как на собеседованиях, так и на практике формула — это формула размера выборки:
n = (Var_1 + Var_2) * (z_{1-a/2} + z_{1-β})^2 / MDE^2
n – размер выборки для каждой из двух групп;
Var_i – дисперсия группы i;
a – статистическая значимость, т. е. вероятность того, что данные исследования получены случайно, а не в результате экспериментальных манипуляций. Обычно принимается за 5%;
(1-β) – мощность, т.е. вероятность того, что когда мы говорим, что эффект есть, он действительно есть. Стандартно принимают за 80%
z_{a/2}, z_β – значения стандартного нормального распределения, соответствующие заданным уровням alpha (a) и beta (β);
MDE – минимальный детектируемый эффект. Т.е. даже если в тестовой группе будет присутствовать какой-то эффект, но он будет меньше чем MDE, тест не прокрасится (p-value > alpha).
Из этой формулы можно понять, что:
Уменьшая дисперсии, мы делаем выборки меньше, а значит проводим тест быстрее;
Когда мы увеличиваем мощность (т.е. уменьшаем ошибку 2-рода β) или увеличиваем стат. значимость (т.е. уменьшаем ошибку 1-рода) – нам требуется большая выборка;
Чем меньший MDE мы задаем (т.е. делаем наш тест более чувствительный к изменениям), тем большая выборка нам нужна. И наоборот, если мы хотим сделать "грубый тест", то выборка нужна меньше;
В знаменателе стоит квадрат, а значит размер выборки квадратично зависит от MDE. Т. .е. при уменьшении MDE в 2 раза, размер выборки каждой из групп, придется увеличить в 4 раза.
Как итог, можно заметить взаимосвязь основных параметров теста: размера выборки, MDE, дисперсии, мощности и статистической значимости. Благодаря этому, например, мы можем выводить MDE из доступного нам размера выборки или повышать стат. значимость теста, исходя из вводных по MDE и доступном нам трафике.
Хочешь глубже разобраться в аналитике?
Посмотри программу курса по продуктовой аналитике и экспериментам.