1. Цель - Вам необходимо обработать сырые данные поступившие от парсера.
2. Описание
В файле hotels_parsing_result.xlsx две вкладки platform1, platform2. Это данные о гостиницах от двух разных платформ в одном регионе.
Ссылка на файл2.1 Поля
id - Идентификатор в БД
create_time - Дата создания
title - Название
hotel_type_original - Тип гостиницы
city - Город
address - Адрес
rating - Рейтинг
rating_5 - Рейтинг по 5-ти бальной шкале
review_count - Количество отзывов
star_rating - Звездность
rooms_count Количество номеров
contact_social - Контакты соц. сетей
description - Описание
email - строкой, несколько значений через запятую
phone - телефон строкой, несколько значений через запятую
website - сайты строкой, несколько значений через запятую
uid - Уникальный идентификатор гостиницы на платформе, не может быть разным у одной гостиницы, и не может повторяться у разных гостиниц, но в рамках одной платформы
parsing_time - Время сбора
lat - Широта
lon - Долгота
2.2 Состав данных
• Записи могут повторятся, и самые актуальные данные идут в конце
• Если какое-то поле по конкретной гостинице пустое в последней записи, но встречалось ранее, то необходимо его взять из более ранних записей
• Поля телефона, email, сайтов могу содержать лишние символы, несколько записей и прочее
• Формат записи названия, адреса, типа гостиницы отличается в разных платформах
3. Требования
1. Результат должен быть представлен Jupyter notebook
2. Результат должен воспроизводится автоматически и нуля при повторном запуске, ручные правки должны быть учтены в коде
3. Комментарии приветствуются