У нас есть датасет с данными по пользовательским поискам авиабилетов и открытиям
экрана билета из выдачи. В рамках одного поиска пользователь может как открыть экран
билета несколько раз, так и не открыть его ни разу. Будем считать, что все поиски и
открытия билетов были сделаны 20 августа 2024 года.
Датасет лежит в файле
task_2_data.csvУ каждой записи есть:
● user_id – ID пользователя
● search_id – ID поиска
● origin – город вылета
● destination – город прибытия
● depart_date – дата вылета
● round_trip – тип поиска: “В одну сторону” или “Туда-обратно”
● ticket_signature – ID билета
● baggage – конфигурация багажа в билете
2.1
Посчитайте/визуализируйте с помощью Python:
● Долю пользователей, которые открывали билет от общего количества
пользователей, в зависимости от типа поиска;
● Конверсию из поиска в открытие трёх или более уникальных билетов в разбивке по
городам вылета;
● Среднее количество уникальных открытий билетов в зависимости от конфигурации
багажа.
2.2
Представим, что мы залили наш датасет в базу данных в таблицу serp_events. Напишите SQL-запросы, с помощью которых можно:
● Посчитать какой процент пользователей от тех, кто сделал два или более поиска,
открывает больше трёх уникальных билетов;
● Определить какому из городов прибытия соответствует наибольшая средняя
глубина поиска (разница между датой поиска и датой вылета);
● Определить, является ли количество открытых пользователем уникальных билетов
в рамках каждого города отправления максимальным среди всех пользователей,
выполнявших поиск в этом же городе.