Почему в A/A-тестах p-value распределены равномерно?
В A/A тесте между группами нет реального эффекта, только случайный шум.
Это значит, что в A/A разница между группами может получаться какой угодно: почти нулевой, заметной или даже значимой. И это нормально. Если эффекта нет, такие колебания – это проявление случайности.
p-value – это вероятность получить такой же или более экстремальный результат, если нулевая гипотеза верна. И если нулевая гипотеза верна, а тест проведен корректно, то p-value будут распределены равномерно на отрезке [0, 1].
Почему равномерно?
Это напрямую следует из смысла p-value:
Из этого и следует равномерное распределение p-value.
Если чуть формальнее, то пусть T – статистика теста, а F(T) – ее CDF (функция распределения) при верной H0 .
F(T) переводит наблюдаемое значение в перцентиль. Если T действительно распределена по F(T), его процентиль равновероятно оказывается на промежутке [0,1]. Этот факт известен как probability integral transform. И это наглядно видно, если визуально посмотреть на T и его CDF.
Значит, F(T) равномерно распределена на [0,1]. А потому и p-value, которое в случае одностороннего теста равно 1-F(T), тоже имеет равномерное распределение.
Именно поэтому в A/A тестах иногда появляются «значимые» результаты. Это необязательно ошибка – это ожидаемое следствие случайности.
И поэтому проверка распределение p-value при А/А на равномерность – это хороший способ убедиться, что система сплитования и A/B работают корректно.
Хочешь глубже разобраться в аналитике?
Посмотри программу курса по продуктовой аналитике и экспериментам.