Как вывести A/B-эксперименты в компании на новый уровень?
Инфографика зрелости A/B: как понять «где мы сейчас», куда расти и составить план развития экспериментов в компании.
Раздел про A/B-тесты помогает запускать корректные эксперименты: выбрать метрики, рассчитать размер выборки и MDE, подобрать статистический критерий и не наделать типичных ошибок.
Внутри — разборы реальных кейсов, объяснения статистики простым языком и чеклисты, которые пригодятся и новичку, и опытному аналитику.
Инфографика зрелости A/B: как понять «где мы сейчас», куда расти и составить план развития экспериментов в компании.
Три способа анализировать международный A/B: целиком, по странам или комбинированно (с плюсами и минусами каждого).
Как подбирать метрики эксперимента под проблему и гипотезу: четыре вида метрик A/B и роль каждого в решении.
Эти понятия часто ошибочно взаимозаменяются при работе с A/B на практике.
Проблема подглядывания заключается в принятии решения по эксперименту раньше, чем наберется необходимая выборка.
В посте с видами метрик в A/B-тестах я рассказал о трех видах метрик: долях, непрерывных и метриках отношения (ratio-метриках).
Напомню, что задача звучала следующим образом: Возьмем в качестве продукта – Яндекс.Плюс.
Когда мы проводим A/B, мы никогда не видим истинную величину эффекта. Мы нащупываем и видим только ее оценку на основе выборок.
Откуда берётся рост ошибок I рода при проверке нескольких метрик и веток в A/B и как с этим бороться.
Почему лишь 10–20% экспериментов дают значимый рост и что делать, чтобы тесты приносили пользу, а не разочарование.
Почему в экспериментах сравнивают ARPU и конверсии, а не общую выручку: как «общие» метрики добавляют шум и искажают выводы.
Часто можно слышать вопрос – какой статистический критерий и в каких случаях применять?
5 причин завести единый журнал экспериментов: как он систематизирует A/B-тесты и помогает data-driven команде расти.
Нулевые гипотезы статистических тестов часто забываются. И потом ты смотришь на p-value примененного теста и думаешь: «А что это в итоге означает?».
Основная цель A/A-тестов – убедиться в корректности системы сплитования.
В чём сложность ценовых экспериментов и как повысить их качество, не потеряв в спросе и не исказив восприятие бренда.
В классическом A/B-тесте мы делим трафик пополам (или иной пропорции) и ждём, пока наберётся необходимая выборка для принятия решения.
Репрезентативность определяет возможность корректно перенести выводы с выборок на всю исследуемую аудиторию (генеральную совокупность).
Многие ошибочно считают, что для проверки корректности эксперимента и системы сплитования, нужно проводить A/A/B-тесты.
Почему при отсутствии эффекта p-value распределён равномерно и как это понимание помогает читать результаты A/A и A/B.
Разбор формулы размера выборки по частям: как дисперсия, значимость, мощность и MDE влияют на нужное число наблюдений.
Критерий согласия Пирсона (хи-квадрат, χ2) – статистический метод, который используется для проверки соответствия между наблюдаемыми и ожидаемыми распределениями частот в качественных данных.
Сегодня хочу предложить вам спроектировать A/B-эксперимент. Возьмем в качестве продукта – Ozon.
Знали ли вы, что существует множество способов посчитать один и тот же размер выборки?
Вас позвали «на минутку» обсудить эксперимент, а на это ушло два спринта и три созвона?
Как выбрать ключевую метрику эксперимента, когда новой фичи нет в контроле (на примере рекомендательного блока и тарифа).
Предположим, мы хотим протестировать изменение в продукте с помощью A/B-теста.
Sample Ratio Mismatch (SRM) – это проблема несоответствия между ожидаемыми и фактическими пропорциями пользователей в группах при проведении A/B-тестирования.
4 этапа развития A/B-экспериментов в компаниях.