Ссылка на задание в папкеШаг 1Получить доступ к public data внутри BigQuery.
Инструкция по
ссылкеНас интересует набор данных google_analytics_sample и датасет ga_sessions.
Шаг 2Выгрузить таблицу из BQ (можно через сохранение на Google Drive или BQ API)
Набор полей в Select определить самостоятельно. Период запроса - 2 недели
Шаг 3с помощью Python сформировать последовательности источников визитов пользователя, которые привели к транзакции.
- Источник определяем как связку utm_source + utm_medium.
- Транзакция определяется, как hits.transaction.transactionId соответствует регулярному выражению .*\d+.*
Пример:- Пользователь, который совершил визит с рекламы Яндекса, а затем с рекламы Google и совершил транзакцию будет иметь цепочку
yandex_cpc => google_cpc
- Пользователь совершил переход из поиска Google, а затем из поиска Яндекс. Транзакций не совершал. Цепочка для него отсутствует.
Если не совсем понятно, что такое последовательность касаний для каждого пользователя, то вот обучающее
видео.
В результате ожидаем jupiter ноутбук с вашими комментариями и 2-мя результирующими таблицами:
1. Для каждой транзакции сформирована цепочка касаний
2. Топ-10 самых популярных цепочек касаний. Популярность определяется на основе количества таких цепочек в датасете.