Программы
Подготовка к собеседованиямA/B-тесты для аналитиковML и Causal InferenceA/B-тесты для менеджеровОбучение для команд
Бесплатные материалы
База знаний185+ тестовых заданийRoadmap по A/BЧеклист A/B-тестаОтзывыО проектеОставить заявку
Продуктовая аналитика и метрики

Парадокс Симпсона: задача с собеседования аналитика про долю поиска Google

23 марта 2023·4 мин чтения·Павел Бухтик·Оригинал в Telegram ↗

Почему доля Google могла упасть во всех браузерах, но вырасти в общей метрике

В статье разберём:

Условие задачи

Мы анализируем долю использования поиска Google в разных браузерах:

доля = пользователи Google в браузере / все пользователи браузера

Пример 1: доля упала в каждом браузере, но выросла в целом

БраузерДень 1День 2Что произошло
A90 / 100 = 0.90170 / 200 = 0.85доля упала
B200 / 1000 = 0.20190 / 1000 = 0.19доля упала
Итого290 / 1100 ≈ 0.26360 / 1200 = 0.30доля выросла

Что произошло:

  • в каждом браузере доля Google упала
  • но вырос вес браузера A
  • а браузер A — это браузер с высокой долей Google
  • поэтому общая метрика выросла

Пример 2: общая доля выросла из-за уменьшения браузера с низкой долей Google

БраузерДень 1День 2Что произошло
A90 / 100 = 0.9080 / 100 = 0.80доля упала
B200 / 1000 = 0.2090 / 500 = 0.18доля упала
Итого290 / 1100 ≈ 0.26170 / 600 ≈ 0.28доля выросла

Что произошло:

  • в каждом браузере доля Google снова упала
  • но сильно уменьшился вес браузера B
  • браузер B — это браузер с низкой долей Google
  • поэтому общая доля выросла

Это парадокс Симпсона

Парадокс Симпсона (или парадокс объединения) — эффект в статистике, когда внутри каждой группы данных мы видим одну зависимость, но при объединении групп зависимость становится противоположной.

Причина — в некорректном усреднении групп с разной долей наблюдений. Интуитивно кажется, что вес групп одинаковый, но в исходных данных это не так. Поэтому простое арифметическое усреднение долей вводит в заблуждение.

общая доля = доля Google в A × вес A + доля Google в B × вес B

Почему возникает парадокс Симпсона

Парадокс возникает, когда сегменты имеют разные веса и эти веса меняются со временем. Тогда динамику общей метрики определяют не только доли внутри сегментов, но и то, как перераспределились пользователи между сегментами.

Где здесь ловушка для аналитика

Если смотреть только на доли внутри сегментов, кажется, что Google везде теряет позиции. Но итоговая метрика — взвешенная, и её двигают не только сами доли, но и размеры сегментов.

Как правильно анализировать такие ситуации

  • смотреть не только на доли по сегментам, но и на их веса
  • проверять, как изменились размеры сегментов между периодами
  • считать общую метрику как взвешенную сумму, а не как среднее долей

Как отвечать на собеседовании

Главный вывод

Что запомнить

  1. Общая доля — это взвешенная метрика, а не среднее долей по сегментам.
  2. Веса сегментов могут изменить направление общей метрики.
  3. Падение в каждой группе и рост в целом — классический признак парадокса Симпсона.
  4. Всегда проверяйте и доли, и веса сегментов, прежде чем делать вывод.

Хочешь глубже разобраться в аналитике?

Посмотри программу курса по продуктовой аналитике и экспериментам.

Смотреть курс