Hands-On Data Engineering
Комплексна програма з інженерії даних для розробників-світчерів та спеціалістів по роботі з даними
Hands-On Data Engineering
Огляд програми
Сьогодні кожен бізнес — data driven. Попит на спеціалістів по роботі з даними лише зростає. Саме тому ми розробили цю програму — мікромагістратуру з фундаментальними знаннями про зберігання, обробку і отримання даних.
Протягом 3 місяців ви опануєте всі основні напрямки роботи — від запитів у SQL до координації та моніторингу. Для кожного ми обрали найбільш універсальні та затребувані інструменти. Ви працюватимете з open source тулзами та сервісами — такими як Cassandra, Spark, Kafka тощо. Це основні технології для роботи з даними, оптимальні для практичного навчання. Опановуючи їх, можна без зусиль застосовувати здобуті навички у роботі з аналогічними managed-сервісами Azure, GCP та AWS. Про них ми детальніше поговоримо в останньому модулі програми.
Ці знання та навички дозволять зайти у сферу, закріпитися в ній, або ж систематизувати свої знання в трендовому технологічному напрямку.
ЩО ВИ ВИВЧИТЕ
ВИМОГИ ДО УЧАСНИКІВ
базове розуміння Python
базове розуміння SQL
базове розуміння Docker
знання англійської не нижче B1
ОСВІТНІ МОДУЛІ
Модуль 0. Пререквізити та вступ в інженерію даних
Цей модуль охоплює основи, необхідні для роботи в інженерії даних. Ви розглянете використання Python для обробки даних, RDBMS — для написання та оптимізації запитів, а також Docker — для контейнеризації та налаштування робочого середовища. Наприкінці модуля ви отримаєте цілісне уявлення про роль інженерії даних у сучасних системах роботи з даними.
Наповнення модуля- Основи Python
- Основи RDBMS
- Основи Docker
- Основи Code Management
- Що таке дата інжиніринг
Модуль 1. Зберігання даних
Цей модуль знайомить вас з основами зберігання даних. Ви розпочнете з реляційних баз даних, вивчите SQL та методи моделювання структурованих даних. Далі ознайомитеся з нереляційними базами — документно-орієнтованими, column-family, key-value та аналітичними типами. Також дослідите формати даних і стратегії зберігання в об’єктних системах, а наприкінці опануєте принципи моделювання — від нормалізації для впорядкування даних до денормалізації для підвищення продуктивності.
Наповнення модуля- Вступ до типів баз даних
- Реляційні бази даних і SQL
- Моделювання даних: нормалізація та денормалізація
- Нереляційні бази даних: документи, Column-Family, Key-Value та аналітичні
- Формати даних і стратегії зберігання в системах об'єктного зберігання
- Воркшоп 1 - Що таке інженерія даних, і для чого вона потрібна? Зберігання даних: огляд типів баз даних
- Воркшоп 2 - Реляційні бази даних (RDBMS) і SQL: моделювання даних і запити
- Воркшоп 3 - Нереляційні бази даних. Cassandra і MongoDB. Моделювання даних і запити
- Воркшоп 4 - Нереляційні бази даних та data warehouses (DWH). nRDBMS моделювання даних
- Воркшоп 5 - Масивні та розподілені сховища (Hadoop, ADX). Об'єктне зберігання та організація даних: формати (текстовий, двійковий, стовпчастий), розділення, черги (Redis, Kafka)
Модуль 2. Обробка даних
Цей модуль присвячений основним принципам обробки даних, з акцентом на batch та stream методах. Ви дізнаєтесь як ефективно обробляти великі обсяги даних, працюючи з інструментами PySpark і Flink. Після завершення модуля будете готові до впровадження надійних і масштабованих дата пайплайнів для реальних рішень.
Наповнення модуля- Batch та stream обробка
- Використання інструментів PySpark та Flink
- Воркшоп 6 - Batch обробка за допомогою PySpark
Модуль 3. Отримання даних
Цей модуль присвячений методам отримання даних із різних джерел. Ви навчитеся працювати з файлами у файлових системах і середовищах об’єктного зберігання, ефективно витягати та керувати даними. Крім цього, заглибитеся в роботу з REST API для інтеграції зовнішніх сервісів, а також опануєте основи роботи з потоками подій і чергами повідомлень.
Наповнення модуля- Файли у файлових системах та об’єктних сховищах
- REST API
- Потоки подій та черги повідомлень
- Воркшоп 7 - Потоки подій та Apache Kafka
- Воркшоп 8 - Streaming Processing за допомогою PySpark Streaming
Модуль 4. Координація та моніторинг
Цей модуль допоможе розвинути навички координації та контролю робочих процесів і систем обробки даних. Ви ознайомитеся з Airflow — ключовим інструментом для побудови та керування потоками даних — і навчитеся проєктувати ефективні робочі процеси. Також опануєте Prometheus і Grafana, щоб відстежувати продуктивність систем, візуалізувати метрики та забезпечувати стабільність і надійність операцій з даними.
Наповнення модуля- Airflow
- Prometheus та Grafana
- Воркшоп 9 - Оркестрація пайплайнів за допомогою Airflow
- Воркшоп 10 - Моніторинг в інженерії даних: Prometheus та Grafana
Модуль 5. Інженерія даних на хмарних платформах
Цей модуль знайомить із принципами роботи інженерії даних у хмарному середовищі. Надає можливість порівняти хмарні та локальні рішення, а також отримати огляд основних хмарних платформ — AWS, Azure і GCP. Крім того, ви розглянете основні інструменти для роботи з даними у хмарі.
Наповнення модуля- Переваги та недоліки використання хмарних платформ у порівнянні з локальними рішеннями
- Загальний огляд хмарних платформ: AWS, Azure, GCP
- Функціональні аналоги поширених інструментів для обробки даних
- PostgreSql: AWS RDS, Azure Database for PostgreSQL, Google Cloud SQL
- Cassandra: AWS DynamoDB, Azure Cosmos DB, Google Cloud Bigtable
- MongoDb: AWS DocumentDB, Azure Cosmos DB, Google Cloud Firestore, Atlas MongoDB
- Spark: AWS EMR, Databricks on Azure, Google Cloud Dataproc
- Spark Streaming: AWS Kinesis, Azure Event Hubs, Google Cloud Dataflow
- Kafka: AWS Kinesis, Azure Event Hubs, Google Cloud Pub/Sub
- Cloud Analytics: AWS Redshift, Azure Synapse Analytics, Google Cloud BigQuery
- Воркшоп 11 - Огляд і порівняння хмарних інструментів для обробки даних
Модуль «Інженерія даних на хмарних платформах» розроблено в рамках проєкту «Knowledge Rise: Сталий розвиток блакитної та зеленої економіки за допомогою Deep Tech — розвиток інноваційного потенціалу у вищій освіті» (грантова угода № 24473). Проєкт є частиною ширшої ініціативи CloudEARTHi і співфінансується Європейським Союзом через ініціативу EIT для вищої освіти (когорта 4), що координується Європейським інститутом інновацій і технологій (EIT).
Куратори та викладачі
Дмитро Приймак
Інженер з більш ніж 10-річним професійним досвідом у проєктуванні та створенні систем для розподіленої обробки даних. Протягом кар’єри Дмитро працював над численними проєктами, що охоплюють сфери страхування, охорони здоров’я, обробки медичних даних, онлайн-медіа та розваг. В останні роки змістив свій фокус з виключно інжинірингу на керівництво командами та наставництво/коучинг.
Дмитро також є запрошеним викладачем в SET University, де викладає курс Big Data на магістерських програмах.
Максим Івашура
Досвідчений інженер баз даних/дата веархаузів та бізнес інтелідженс з більш ніж 30-річним досвідом роботи у сферах виробництва та аутсорсу. Працює в Trinetix, де також виступає в ролях ментора та технічного інтерв’юера. Максим є автором системи обліку StoreOff і має великий досвід роботи з різними системами керування базами даних, включно з MS SQL Server (а також SSAS, SSIS), Azure DB, PostgreSQL, Redshift, Snowflake, MySQL, Oracle, SQLight, MongoDB, Redis, Cassandra а також менш традиційними системами, такими як Firebird/InterBase, MS Access, DBase, DataEase та DuckDB. Базується у Харкові, Україна та Малазі, Іспанія.
Христина Коколюс
Досвідчена Data Engineer у SoftServe з більш ніж 4-річним досвідом у проєктуванні та створенні data-пайплайнів. У своїй роботі Христина спеціалізується на оптимізації SQL-запитів, удосконаленні процесів обробки даних і підвищенні продуктивності систем. Завдяки глибокій експертизі в побудові ефективних робочих середовищ, вона допомагає командам масштабуватися та впроваджувати кращі практики у сфері аналітики даних.
Sirojiddin Dushaev
Експерт з Data Engineering та BI з багаторічним досвідом у створенні масштабованих рішень для роботи з даними. Спеціалізується на архітектурі баз даних, побудові сховищ даних та розробці бізнес-аналітики. Володіє хмарними платформами AWS, GCP, Azure, а також технологіями обробки великих даних, зокрема Apache Spark та Kafka. Майстерно працює з SQL, Python та розгортанням моделей машинного навчання. Пристрасний прихильник data-driven підходів та оптимізації аналітичної інфраструктури. Полюбляє працювати в команді для підвищення ефективності обробки даних та бізнес-аналітики.
ПЕРЕВАГИ
Програма надає необхідні навички та знання для старту карʼєри в одному з найзатребуваніших напрямів в ІТ
гнучкий формат навчання, який можна поєднувати з full-time роботою
вас навчають експерти-практики, які нададуть релевантні фідбеки та якісну підтримку під час навчання
ДЛЯ КОГО
Розробники, які прагнуть розвиватися в напрямі інженерії даних
Data Scientists та Data Analysts, які прагнуть перейти на позицію Data Engineer
Junior Data Engineers, які хочуть систематизувати свої знання та ефективно використовувати інструменти по роботі з даними
Досвідчені технічні спеціалісти, яким потрібно зрозуміти/опанувати інженерію даних для ведення проєктів, створення архітектур та загального розширення компетенцій у цьому технологічному напрямку
Досвідчені технічні спеціалісти, яким потрібно розширити компетенції для ведення проєктів та створення архітектур
Відгуки
Євгеній Пилипчук
Завершив програму з Data Engineering у SET University – і чесно кажучи, це був найважчий курс із тих, які я там проходив. Яка ж це була подорож!
Для мене цей шлях не стільки про те, щоб стати «data engineer», скільки про розширення мислення у світі даних. За цей час я на практиці пройшов через:
-
Побудову real-time пайплайнів (Kafka + Spark + Cassandra)
-
Дебаг контейнерів until they screamed (хоча, чесно кажучи, здебільшого кричав саме я)
Усвідомлення, наскільки крихкими можуть бути потоки даних – і наскільки небезпечно це з точки зору безпеки.
Головне усвідомлення: дані керують світом. Кожен зламаний пайплайн даних – це не просто технічний головний біль. У контексті кібербезпеки він може стати відчиненими дверима для атак чи сліпою зоною, яка приховує зловмисну активність.
Можливо, я ніколи не назву себе data engineer, але цей курс допоміг мені зрозуміти, наскільки важливим і пов’язаним із кібербезпекою є цей напрям. Він показав, скільки ще залишилося для дослідження, і тепер я мотивований як ніколи занурюватися далі в цю «кролячу нору».
Дякую Дмитру Приймаку, Максиму Івашурі та всій спільноті SET University. Ваша підтримка, виклики та енергія перетворили цей курс із просто складного на один із найважчих і водночас найцінніших шляхів, які я коли-небудь проходив.
Ірина Єршова
Це був водночас захопливий і складний досвід. Я дізналася дуже багато нового і тепер можу застосовувати ці знання у своїй професійній діяльності.
Хоча зараз я працюю фронтенд-інженером, вважаю надзвичайно важливим розуміти, як працювати з даними. Недарма кажуть: «Дані – це нова нафта».
Дякую Дмитру Приймаку та Максиму Івашурі за виклики, які ви створювали для нас протягом цього курсу!
FAQ
Я вже працюю як дата-інженер, чи є сенс йти на ваш курс?
Якщо ви працюєте на цій позиції рік або менше — так, адже на цьому курсі ви зможете структурувати знання та заповнити пробіли у володінні певними інструментами.
Дізнайтесь детальніше про програму SET University