Hands-On Data Engineering
Комплексна програма з інженерії даних для розробників-світчерів та спеціалістів по роботі з даними
Hands-On Data Engineering
Огляд програми
Сьогодні кожен бізнес — data driven. Попит на спеціалістів по роботі з даними лише зростає. Саме тому ми розробили цю програму — мікромагістратуру з фундаментальними знаннями про зберігання, обробку і отримання даних.
Протягом 3 місяців ви опануєте всі основні напрямки роботи — від запитів у SQL до координації та моніторингу. Для кожного ми обрали найбільш універсальні та затребувані інструменти. Ви працюватимете з open source тулзами та сервісами — такими як Cassandra, Spark, Kafka тощо. Це основні технології для роботи з даними, оптимальні для практичного навчання. Опановуючи їх, можна без зусиль застосовувати здобуті навички у роботі з аналогічними managed-сервісами Azure, GCP та AWS. Про них ми детальніше поговоримо в останньому модулі програми.
Ці знання та навички дозволять зайти у сферу, закріпитися в ній, або ж систематизувати свої знання в трендовому технологічному напрямку.
ЩО ВИ ВИВЧИТЕ
ВИМОГИ ДО УЧАСНИКІВ
базове розуміння Python
базове розуміння SQL
базове розуміння Docker
знання англійської не нижче B1
ОСВІТНІ МОДУЛІ
Модуль 0. Пререквізити та вступ в інженерію даних
Цей модуль охоплює основи, необхідні для роботи в інженерії даних. Ви розглянете використання Python для обробки даних, RDBMS — для написання та оптимізації запитів, а також Docker — для контейнеризації та налаштування робочого середовища. Наприкінці модуля ви отримаєте цілісне уявлення про роль інженерії даних у сучасних системах роботи з даними.
Наповнення модуля- Основи Python
- Основи RDBMS
- Основи Docker
- Основи Code Management
- Що таке дата інжиніринг
Модуль 1. Зберігання даних
Цей модуль знайомить вас з основами зберігання даних. Ви розпочнете з реляційних баз даних, вивчите SQL та методи моделювання структурованих даних. Далі ознайомитеся з нереляційними базами — документно-орієнтованими, column-family, key-value та аналітичними типами. Також дослідите формати даних і стратегії зберігання в об’єктних системах, а наприкінці опануєте принципи моделювання — від нормалізації для впорядкування даних до денормалізації для підвищення продуктивності.
Наповнення модуля- Вступ до типів баз даних
- Реляційні бази даних і SQL
- Моделювання даних: нормалізація та денормалізація
- Нереляційні бази даних: документи, Column-Family, Key-Value та аналітичні
- Формати даних і стратегії зберігання в системах об'єктного зберігання
- Воркшоп 1 - Що таке інженерія даних, і для чого вона потрібна? Зберігання даних: огляд типів баз даних
- Воркшоп 2 - Реляційні бази даних (RDBMS) і SQL: моделювання даних і запити
- Воркшоп 3 - Нереляційні бази даних. Cassandra і MongoDB. Моделювання даних і запити
- Воркшоп 4 - Нереляційні бази даних та data warehouses (DWH). nRDBMS моделювання даних
- Воркшоп 5 - Масивні та розподілені сховища (Hadoop, ADX). Об'єктне зберігання та організація даних: формати (текстовий, двійковий, стовпчастий), розділення, черги (Redis, Kafka)
Модуль 2. Обробка даних
Цей модуль присвячений основним принципам обробки даних, з акцентом на batch та stream методах. Ви дізнаєтесь як ефективно обробляти великі обсяги даних, працюючи з інструментами PySpark і Flink. Після завершення модуля будете готові до впровадження надійних і масштабованих дата пайплайнів для реальних рішень.
Наповнення модуля- Batch та stream обробка
- Використання інструментів PySpark та Flink
- Воркшоп 6 - Batch обробка за допомогою PySpark
Модуль 3. Отримання даних
Цей модуль присвячений методам отримання даних із різних джерел. Ви навчитеся працювати з файлами у файлових системах і середовищах об’єктного зберігання, ефективно витягати та керувати даними. Крім цього, заглибитеся в роботу з REST API для інтеграції зовнішніх сервісів, а також опануєте основи роботи з потоками подій і чергами повідомлень.
Наповнення модуля- Файли у файлових системах та об’єктних сховищах
- REST API
- Потоки подій та черги повідомлень
- Воркшоп 7 - Потоки подій та Apache Kafka
- Воркшоп 8 - Streaming Processing за допомогою PySpark Streaming
Модуль 4. Координація та моніторинг
Цей модуль допоможе розвинути навички координації та контролю робочих процесів і систем обробки даних. Ви ознайомитеся з Airflow — ключовим інструментом для побудови та керування потоками даних — і навчитеся проєктувати ефективні робочі процеси. Також опануєте Prometheus і Grafana, щоб відстежувати продуктивність систем, візуалізувати метрики та забезпечувати стабільність і надійність операцій з даними.
Наповнення модуля- Airflow
- Prometheus та Grafana
- Воркшоп 9 - Оркестрація пайплайнів за допомогою Airflow
- Воркшоп 10 - Моніторинг в інженерії даних: Prometheus та Grafana
Куратори та викладачі
Дмитро Приймак
Інженер з більш ніж 10-річним професійним досвідом у проєктуванні та створенні систем для розподіленої обробки даних. Протягом кар’єри Дмитро працював над численними проєктами, що охоплюють сфери страхування, охорони здоров’я, обробки медичних даних, онлайн-медіа та розваг. В останні роки змістив свій фокус з виключно інжинірингу на керівництво командами та наставництво/коучинг.
Дмитро також є запрошеним викладачем в SET University, де викладає курс Big Data на магістерських програмах.
Максим Івашура
Досвідчений інженер баз даних/дата веархаузів та бізнес інтелідженс з більш ніж 30-річним досвідом роботи у сферах виробництва та аутсорсу. Працює в Trinetix, де також виступає в ролях ментора та технічного інтерв’юера. Максим є автором системи обліку StoreOff і має великий досвід роботи з різними системами керування базами даних, включно з MS SQL Server (а також SSAS, SSIS), Azure DB, PostgreSQL, Redshift, Snowflake, MySQL, Oracle, SQLight, MongoDB, Redis, Cassandra а також менш традиційними системами, такими як Firebird/InterBase, MS Access, DBase, DataEase та DuckDB. Базується у Харкові, Україна та Малазі, Іспанія.
Христина Коколюс
Досвідчена Data Engineer у SoftServe з більш ніж 4-річним досвідом у проєктуванні та створенні data-пайплайнів. У своїй роботі Христина спеціалізується на оптимізації SQL-запитів, удосконаленні процесів обробки даних і підвищенні продуктивності систем. Завдяки глибокій експертизі в побудові ефективних робочих середовищ, вона допомагає командам масштабуватися та впроваджувати кращі практики у сфері аналітики даних.
Sirojiddin Dushaev
Експерт з Data Engineering та BI з багаторічним досвідом у створенні масштабованих рішень для роботи з даними. Спеціалізується на архітектурі баз даних, побудові сховищ даних та розробці бізнес-аналітики. Володіє хмарними платформами AWS, GCP, Azure, а також технологіями обробки великих даних, зокрема Apache Spark та Kafka. Майстерно працює з SQL, Python та розгортанням моделей машинного навчання. Пристрасний прихильник data-driven підходів та оптимізації аналітичної інфраструктури. Полюбляє працювати в команді для підвищення ефективності обробки даних та бізнес-аналітики.
ПЕРЕВАГИ
Програма надає необхідні навички та знання для старту карʼєри в одному з найзатребуваніших напрямів в ІТ
гнучкий формат навчання, який можна поєднувати з full-time роботою
вас навчають експерти-практики, які нададуть релевантні фідбеки та якісну підтримку під час навчання
ДЛЯ КОГО
Розробники, які прагнуть розвиватися в напрямі інженерії даних
Data Scientists та Data Analysts, які прагнуть перейти на позицію Data Engineer
Junior Data Engineers, які хочуть систематизувати свої знання та ефективно використовувати інструменти по роботі з даними
Досвідчені технічні спеціалісти, яким потрібно зрозуміти/опанувати інженерію даних для ведення проєктів, створення архітектур та загального розширення компетенцій у цьому технологічному напрямку
Досвідчені технічні спеціалісти, яким потрібно розширити компетенції для ведення проєктів та створення архітектур
Відгуки
Євгеній Пилипчук
Завершив програму з Data Engineering у SET University – і чесно кажучи, це був найважчий курс із тих, які я там проходив. Яка ж це була подорож! Для мене цей шлях не стільки про те, щоб стати «data engineer», скільки про розширення мислення у світі даних. За цей час я на практиці пройшов через: побудову real-time пайплайнів (Kafka + Spark + Cassandra); дебаг контейнерів until they screamed (хоча, чесно кажучи, здебільшого кричав саме я).
Усвідомлення, наскільки крихкими можуть бути потоки даних – і наскільки небезпечно це з точки зору безпеки. І головне: дані керують світом. Кожен зламаний пайплайн даних – це не просто технічний головний біль. У контексті кібербезпеки він може стати відчиненими дверима для атак чи сліпою зоною, яка приховує зловмисну активність.
Можливо, я ніколи не назву себе data engineer, але цей курс допоміг мені зрозуміти, наскільки важливим і пов’язаним із кібербезпекою є цей напрям. Він показав, скільки ще залишилося для дослідження, і тепер я мотивований як ніколи занурюватися далі в цю «кролячу нору».
Дякую Дмитру Приймаку, Максиму Івашурі та всій спільноті SET University. Ваша підтримка, виклики та енергія перетворили цей курс із просто складного на один із найважчих і водночас найцінніших шляхів, які я коли-небудь проходив.
Ірина Єршова
Це був водночас захопливий і складний досвід. Я дізналася дуже багато нового і тепер можу застосовувати ці знання у своїй професійній діяльності. Хоча зараз я працюю фронтенд-інженером, вважаю надзвичайно важливим розуміти, як працювати з даними. Недарма кажуть: «Дані – це нова нафта».
Дякую Дмитру Приймаку та Максиму Івашурі за виклики, які ви створювали для нас протягом цього курсу!
FAQ
Я вже працюю як дата-інженер, чи є сенс йти на ваш курс?
Якщо ви працюєте на цій позиції рік або менше — так, адже на цьому курсі ви зможете структурувати знання та заповнити пробіли у володінні певними інструментами.
Дізнайтесь детальніше про програму SET University