Парадокс Симпсона: задача с собеседования аналитика про долю поиска Google
Почему доля Google могла упасть во всех браузерах, но вырасти в общей метрике
В статье разберём:
- условие задачи
- пример 1
- пример 2
- что такое парадокс Симпсона
- где ловушка для аналитика
- как отвечать на собеседовании
- главный вывод
Условие задачи
Мы анализируем долю использования поиска Google в разных браузерах:
доля = пользователи Google в браузере / все пользователи браузера
Пример 1: доля упала в каждом браузере, но выросла в целом
| Браузер | День 1 | День 2 | Что произошло |
|---|---|---|---|
| A | 90 / 100 = 0.90 | 170 / 200 = 0.85 | доля упала |
| B | 200 / 1000 = 0.20 | 190 / 1000 = 0.19 | доля упала |
| Итого | 290 / 1100 ≈ 0.26 | 360 / 1200 = 0.30 | доля выросла |
Что произошло:
- в каждом браузере доля Google упала
- но вырос вес браузера A
- а браузер A — это браузер с высокой долей Google
- поэтому общая метрика выросла
Пример 2: общая доля выросла из-за уменьшения браузера с низкой долей Google
| Браузер | День 1 | День 2 | Что произошло |
|---|---|---|---|
| A | 90 / 100 = 0.90 | 80 / 100 = 0.80 | доля упала |
| B | 200 / 1000 = 0.20 | 90 / 500 = 0.18 | доля упала |
| Итого | 290 / 1100 ≈ 0.26 | 170 / 600 ≈ 0.28 | доля выросла |
Что произошло:
- в каждом браузере доля Google снова упала
- но сильно уменьшился вес браузера B
- браузер B — это браузер с низкой долей Google
- поэтому общая доля выросла
Это парадокс Симпсона
Парадокс Симпсона (или парадокс объединения) — эффект в статистике, когда внутри каждой группы данных мы видим одну зависимость, но при объединении групп зависимость становится противоположной.
Причина — в некорректном усреднении групп с разной долей наблюдений. Интуитивно кажется, что вес групп одинаковый, но в исходных данных это не так. Поэтому простое арифметическое усреднение долей вводит в заблуждение.
общая доля = доля Google в A × вес A + доля Google в B × вес B
Почему возникает парадокс Симпсона
Парадокс возникает, когда сегменты имеют разные веса и эти веса меняются со временем. Тогда динамику общей метрики определяют не только доли внутри сегментов, но и то, как перераспределились пользователи между сегментами.
Где здесь ловушка для аналитика
Если смотреть только на доли внутри сегментов, кажется, что Google везде теряет позиции. Но итоговая метрика — взвешенная, и её двигают не только сами доли, но и размеры сегментов.
Как правильно анализировать такие ситуации
- смотреть не только на доли по сегментам, но и на их веса
- проверять, как изменились размеры сегментов между периодами
- считать общую метрику как взвешенную сумму, а не как среднее долей
Как отвечать на собеседовании
Главный вывод
Что запомнить
- Общая доля — это взвешенная метрика, а не среднее долей по сегментам.
- Веса сегментов могут изменить направление общей метрики.
- Падение в каждой группе и рост в целом — классический признак парадокса Симпсона.
- Всегда проверяйте и доли, и веса сегментов, прежде чем делать вывод.
Хочешь глубже разобраться в аналитике?
Посмотри программу курса по продуктовой аналитике и экспериментам.