Тестовое задание
на инженера данных
Градус

Задание #1

На основе анализа колонок 1,2,3 проставить в колонки бренд и подбренд товара. Если, что-то не указано или невозможно определить - проставить "Не указан"

Результат работы: колонки 4 и 5 заполнены. Пояснительная записка: что и как делалось, скрипты на Python, если использовался.

Задание со звездочкой (необязательное): продумать более общий подход для этой работы, когда исходные данные это наименования других групп товаров.

1.задание_на_лемматизацию.xlsx

Задание #2
В базе данных address есть таблица a

В этой таблице в некоторых строках значение поля [код ТТВх] NULL (таких строк 6353)
Требуется написать команды SQL, чтобы заполнить это поле.

Возможно в этом поможет таблица b
Задание #3
Дано:
Вводные:
retailer - название ритейлера,
cat - название группы,
subcat - название подгруппы,
year_month - год и месяц,
week - неделя,
cnt_lines - количество строк,
cnt_stores - количество уникальных магазинов,
cnt_sku - количество уникальных товаров (SKU)
si - суммарные продажи в шт.,
sv - суммарные продажи в руб.
Задание:
Проанализировать файл со сводной статистикой (statistics.txt) на возможные недочёты по качеству данных и полноте данных.

  • Описать недочёты, если будут выявлены.

  • Дополнительно* (но не обязательно) предоставить SQL-запросы, которые помогли этому анализу.
хочешь поделиться решением или заданием с собеседования?

Оставь свои контакты через форму, и я свяжусь с тобой в течение 24 часов
© No Data No Growth, 2024