Осень 2022

DWH

Цель курса — Изучение походов проектирования процессов обработки больших объемов данных, выбора архитектуры хранилища и выстраивания процесса внедрения от концепции до полноценного функционирования системы. Получение навыков работы с распределенными вычислениями в экосистеме Hadoop
 

Описание
Не секрет, что объем накопленных данных в современном мире колоссален, и те компании, которые умеют извлекать из этих данных знания и монетизировать их, всегда будут на шаг впереди конкурентов.
Однако, без должного подхода к организации работы с данными, их очистке, анализу и хранению, вместо ценного ресурса накопленные данные превращаются в неконтролируемую свалку, которая мертвым грузом висит на балансе организации.
 
Подробнее
Чему научитесь
Получаемые навыки
- Умение выбрать между подходами к построению ХД
- Знание основных подходов к проектированию БД (OLAP, Data Vault, Anchor modeling) и умение сделать обоснованный выбор между ними
- Умение проектировать потоки данных с помощью code-driven средств
- Навыки работы с Hadoop, Spark
- Навык выбора модели данных и ETL-инструмента адекватно задаче
Подробнее

Преподаватели

Артур Чакветадзе Артур Чакветадзе

VK Реклама
Hadoop DWH

Дарья Польщикова Дарья Польщикова

Руководитель команды системной аналитики в VK
Hadoop DWH

Анастасия Кислуха Анастасия Кислуха

Работаю в VK на должности BigData инженер в группе Hadoop DWH.

Владислав Алехин Владислав Алехин

Выпускник ИУ6 МГТУ им. Н.Э.Баумана. Младший BigData инженер, VK, Hadoop DWH.

Программа

Занятие Часы в ауд. + сам. работа

Лекция №1: Введение  

4 ак. ч.

Лекция №2: Классические подходы к построению хранилищ данных  

4 ак. ч.

Лекция №3: Схемы построения БД  

4 ак. ч.

Семинар №1: Проектирование модели хранилища данных  
+ ДЗ №1

4 ак. ч.

Лекция №4: MPP-системы  

4 ак. ч.

Смешанное занятие №1: Hadoop. Основные компоненты  
+ ДЗ №2

4 ак. ч.

Смешанное занятие №2: Hadoop. Hive  
+ ДЗ №3

4 ак. ч.

Смешанное занятие №3: Hadoop. Spark  
+ ДЗ №4

4 ак. ч.

Смешанное занятие №4: Потоки данных ETL. Code-Driven ETL: Luigi.  

4 ак. ч.

Смешанное занятие №5: Потоки данных ETL. Code-Driven ETL: Airflow  

4 ак. ч.

Экзамен №1: Экзамен  

6 ак. ч.