Тестовое задание
на инженера данных
Градус

Задание #1

На основе анализа колонок 1,2,3 проставить в колонки бренд и подбренд товара. Если, что-то не указано или невозможно определить - проставить "Не указан"

Результат работы: колонки 4 и 5 заполнены. Пояснительная записка: что и как делалось, скрипты на Python, если использовался.

Задание со звездочкой (необязательное): продумать более общий подход для этой работы, когда исходные данные это наименования других групп товаров.

1.задание_на_лемматизацию.xlsx

Задание #2

В базе данных address есть таблица a

В этой таблице в некоторых строках значение поля [код ТТВх] NULL (таких строк 6353)
Требуется написать команды SQL, чтобы заполнить это поле.

Возможно в этом поможет таблица b

Задание #3

Дано:

Вводные:
retailer - название ритейлера,
cat - название группы,
subcat - название подгруппы,
year_month - год и месяц,
week - неделя,
cnt_lines - количество строк,
cnt_stores - количество уникальных магазинов,
cnt_sku - количество уникальных товаров (SKU)
si - суммарные продажи в шт.,
sv - суммарные продажи в руб.

Задание:

Проанализировать файл со сводной статистикой (statistics.txt) на возможные недочёты по качеству данных и полноте данных.

Описать недочёты, если будут выявлены.

Дополнительно* (но не обязательно) предоставить SQL-запросы, которые помогли этому анализу.

готовишься к СОБЕСАМ на продуктового аналитика?

Мой онлайн-интенсив по подготовке к собеседованиям поможет тебе освоить навык прохождения всех этапов собеседования и получить оффер на 30% больше и в 2 раза быстрее
Узнать подробнее

хочешь поделиться решением или заданием с собеседования?

Оставь свои контакты через форму, и я свяжусь с тобой в течение 24 часов

Услуги

Полезные материалы

Публичная оферта

Политика
конфиденциальности

Контакты

Тестовое заданиена инженера данныхГрадус

Тестовое задание
на инженера данных
Градус