EN

Hands-On Data Engineering

Комплексна програма з інженерії даних для розробників-світчерів та спеціалістів по роботі з даними

Дізнатись більше про програму

Hands-On Data Engineering

Старт програми: 19 лютого
Тривалість: 12 тижнів
Формат: онлайн
ECTS: 4
Мова: Англ / Укр
Оплата частинами: Доступна
Вартість: 12 800 грн/місяць

Огляд програми

Сьогодні кожен бізнес — data driven. Попит на спеціалістів по роботі з даними лише зростає. Саме тому ми розробили цю програму — мікромагістратуру з фундаментальними знаннями про зберігання, обробку і отримання даних.

 

Протягом 3 місяців ви опануєте всі основні напрямки роботи — від запитів у SQL до координації та моніторингу. Для кожного ми обрали найбільш універсальні та затребувані інструменти. Ви працюватимете з open source тулзами та сервісами — такими як Cassandra, Spark, Kafka тощо. Це основні технології для роботи з даними, оптимальні для практичного навчання. Опановуючи їх, можна без зусиль застосовувати здобуті навички у роботі з аналогічними managed-сервісами Azure, GCP та AWS. Про них ми детальніше поговоримо в останньому модулі програми.

 

Ці знання та навички дозволять зайти у сферу, закріпитися в ній, або ж систематизувати свої знання в трендовому технологічному напрямку.

ЩО ВИ ВИВЧИТЕ

SQL та NoSQL
моделювання даних, їх нормалізація та денормалізація
PySpark для потокової та пакетної обробки даних
збір даних з різних джерел (файлові системи, обʼєктні сховища, API та потоки подій)
впровадження ефективних стратегій інтеграції даних
Airflow, Prometheus та Grafana для координації та моніторингу

ВИМОГИ ДО УЧАСНИКІВ

базове розуміння Python

базове розуміння SQL

базове розуміння Docker

знання англійської не нижче B1

ОСВІТНІ МОДУЛІ

Модуль 0. Пререквізити та вступ в інженерію даних

Цей модуль охоплює основи, необхідні для роботи в інженерії даних. Ви розглянете використання Python для обробки даних, RDBMS — для написання та оптимізації запитів, а також Docker — для контейнеризації та налаштування робочого середовища. Наприкінці модуля ви отримаєте цілісне уявлення про роль інженерії даних у сучасних системах роботи з даними.

Наповнення модуля
  • Основи Python
  • Основи RDBMS
  • Основи Docker
  • Основи Code Management
  • Що таке дата інжиніринг

Модуль 1. Зберігання даних

Цей модуль знайомить вас з основами зберігання даних. Ви розпочнете з реляційних баз даних, вивчите SQL та методи моделювання структурованих даних. Далі ознайомитеся з нереляційними базами — документно-орієнтованими, column-family, key-value та аналітичними типами. Також дослідите формати даних і стратегії зберігання в об’єктних системах, а наприкінці опануєте принципи моделювання — від нормалізації для впорядкування даних до денормалізації для підвищення продуктивності.

Наповнення модуля
  • Вступ до типів баз даних
  • Реляційні бази даних і SQL
  • Моделювання даних: нормалізація та денормалізація
  • Нереляційні бази даних: документи, Column-Family, Key-Value та аналітичні
  • Формати даних і стратегії зберігання в системах об'єктного зберігання
Воркшопи
  • Воркшоп 1 - Що таке інженерія даних, і для чого вона потрібна? Зберігання даних: огляд типів баз даних
  • Воркшоп 2 - Реляційні бази даних (RDBMS) і SQL: моделювання даних і запити
  • Воркшоп 3 - Нереляційні бази даних. Cassandra і MongoDB. Моделювання даних і запити
  • Воркшоп 4 - Нереляційні бази даних та data warehouses (DWH). nRDBMS моделювання даних
  • Воркшоп 5 - Масивні та розподілені сховища (Hadoop, ADX). Об'єктне зберігання та організація даних: формати (текстовий, двійковий, стовпчастий), розділення, черги (Redis, Kafka)

Модуль 2. Обробка даних

Цей модуль присвячений основним принципам обробки даних, з акцентом на batch та stream методах. Ви дізнаєтесь як ефективно обробляти великі обсяги даних, працюючи з інструментами PySpark і Flink. Після завершення модуля будете готові до впровадження надійних і масштабованих дата пайплайнів для реальних рішень.

Наповнення модуля
  • Batch та stream обробка
  • Використання інструментів PySpark та Flink
Воркшопи
  • Воркшоп 6 - Batch обробка за допомогою PySpark

Модуль 3. Отримання даних

Цей модуль присвячений методам отримання даних із різних джерел. Ви навчитеся працювати з файлами у файлових системах і середовищах об’єктного зберігання, ефективно витягати та керувати даними. Крім цього, заглибитеся в роботу з REST API для інтеграції зовнішніх сервісів, а також опануєте основи роботи з потоками подій і чергами повідомлень.

Наповнення модуля
  • Файли у файлових системах та об’єктних сховищах
  • REST API
  • Потоки подій та черги повідомлень
Воркшопи
  • Воркшоп 7 - Потоки подій та Apache Kafka
  • Воркшоп 8 - Streaming Processing за допомогою PySpark Streaming

Модуль 4. Координація та моніторинг

Цей модуль допоможе розвинути навички координації та контролю робочих процесів і систем обробки даних. Ви ознайомитеся з Airflow — ключовим інструментом для побудови та керування потоками даних — і навчитеся проєктувати ефективні робочі процеси. Також опануєте Prometheus і Grafana, щоб відстежувати продуктивність систем, візуалізувати метрики та забезпечувати стабільність і надійність операцій з даними.

Наповнення модуля
  • Airflow
  • Prometheus та Grafana
Воркшопи
  • Воркшоп 9 - Оркестрація пайплайнів за допомогою Airflow
  • Воркшоп 10 - Моніторинг в інженерії даних: Prometheus та Grafana

Модуль 5. Інженерія даних на хмарних платформах

Цей модуль знайомить із принципами роботи інженерії даних у хмарному середовищі. Надає можливість порівняти хмарні та локальні рішення, а також отримати огляд основних хмарних платформ — AWS, Azure і GCP. Крім того, ви розглянете основні інструменти для роботи з даними у хмарі.

Наповнення модуля
  • Переваги та недоліки використання хмарних платформ у порівнянні з локальними рішеннями
  • Загальний огляд хмарних платформ: AWS, Azure, GCP
  • Функціональні аналоги поширених інструментів для обробки даних
  • PostgreSql: AWS RDS, Azure Database for PostgreSQL, Google Cloud SQL
  • Cassandra: AWS DynamoDB, Azure Cosmos DB, Google Cloud Bigtable
  • MongoDb: AWS DocumentDB, Azure Cosmos DB, Google Cloud Firestore, Atlas MongoDB
  • Spark: AWS EMR, Databricks on Azure, Google Cloud Dataproc
  • Spark Streaming: AWS Kinesis, Azure Event Hubs, Google Cloud Dataflow
  • Kafka: AWS Kinesis, Azure Event Hubs, Google Cloud Pub/Sub
  • Cloud Analytics: AWS Redshift, Azure Synapse Analytics, Google Cloud BigQuery
Воркшопи
  • Воркшоп 11 - Огляд і порівняння хмарних інструментів для обробки даних

Модуль «Інженерія даних на хмарних платформах» розроблено в рамках проєкту «Knowledge Rise: Сталий розвиток блакитної та зеленої економіки за допомогою Deep Tech — розвиток інноваційного потенціалу у вищій освіті» (грантова угода № 24473). Проєкт є частиною ширшої ініціативи CloudEARTHi і співфінансується Європейським Союзом через ініціативу EIT для вищої освіти (когорта 4), що координується Європейським інститутом інновацій і технологій (EIT).

Куратори та викладачі

Дмитро Приймак

Інженер з більш ніж 10-річним професійним досвідом у проєктуванні та створенні систем для розподіленої обробки даних. Протягом кар’єри Дмитро працював над численними проєктами, що охоплюють сфери страхування, охорони здоров’я, обробки медичних даних, онлайн-медіа та розваг. В останні роки змістив свій фокус з виключно інжинірингу на керівництво командами та наставництво/коучинг.

Дмитро також є запрошеним викладачем в SET University, де викладає курс Big Data на магістерських програмах.

Максим Івашура

Досвідчений інженер баз даних/дата веархаузів та бізнес інтелідженс з більш ніж 30-річним досвідом роботи у сферах виробництва та аутсорсу. Працює в Trinetix, де також виступає в ролях ментора та технічного інтерв’юера. Максим є автором системи обліку StoreOff і має великий досвід роботи з різними системами керування базами даних, включно з MS SQL Server (а також SSAS, SSIS), Azure DB, PostgreSQL, Redshift, Snowflake, MySQL, Oracle, SQLight, MongoDB, Redis, Cassandra а також менш традиційними системами, такими як Firebird/InterBase, MS Access, DBase, DataEase та DuckDB. Базується у Харкові, Україна та Малазі, Іспанія.

Христина Коколюс

Досвідчена Data Engineer у SoftServe з більш ніж 4-річним досвідом у проєктуванні та створенні data-пайплайнів. У своїй роботі Христина спеціалізується на оптимізації SQL-запитів, удосконаленні процесів обробки даних і підвищенні продуктивності систем. Завдяки глибокій експертизі в побудові ефективних робочих середовищ, вона допомагає командам масштабуватися та впроваджувати кращі практики у сфері аналітики даних.

Sirojiddin Dushaev

Експерт з Data Engineering та BI з багаторічним досвідом у створенні масштабованих рішень для роботи з даними. Спеціалізується на архітектурі баз даних, побудові сховищ даних та розробці бізнес-аналітики. Володіє хмарними платформами AWS, GCP, Azure, а також технологіями обробки великих даних, зокрема Apache Spark та Kafka. Майстерно працює з SQL, Python та розгортанням моделей машинного навчання. Пристрасний прихильник data-driven підходів та оптимізації аналітичної інфраструктури. Полюбляє працювати в команді для підвищення ефективності обробки даних та бізнес-аналітики.

ПЕРЕВАГИ

Програма надає необхідні навички та знання для старту карʼєри в одному з найзатребуваніших напрямів в ІТ

гнучкий формат навчання, який можна поєднувати з full-time роботою

вас навчають експерти-практики, які нададуть релевантні фідбеки та якісну підтримку під час навчання

ДЛЯ КОГО

Розробники, які прагнуть розвиватися в напрямі інженерії даних

Data Scientists та Data Analysts, які прагнуть перейти на позицію Data Engineer

Junior Data Engineers, які хочуть систематизувати свої знання та ефективно використовувати інструменти по роботі з даними

Досвідчені технічні спеціалісти, яким потрібно зрозуміти/опанувати інженерію даних для ведення проєктів, створення архітектур та загального розширення компетенцій у цьому технологічному напрямку

Досвідчені технічні спеціалісти, яким потрібно розширити компетенції для ведення проєктів та створення архітектур

Відгуки

Євгеній Пилипчук

Senior Software Engineer у GlobalLogic

Завершив програму з Data Engineering у SET University – і чесно кажучи, це був найважчий курс із тих, які я там проходив. Яка ж це була подорож!

Для мене цей шлях не стільки про те, щоб стати «data engineer», скільки про розширення мислення у світі даних. За цей час я на практиці пройшов через:

  • Побудову real-time пайплайнів (Kafka + Spark + Cassandra)

  • Дебаг контейнерів until they screamed (хоча, чесно кажучи, здебільшого кричав саме я)

Усвідомлення, наскільки крихкими можуть бути потоки даних – і наскільки небезпечно це з точки зору безпеки.

Головне усвідомлення: дані керують світом. Кожен зламаний пайплайн даних – це не просто технічний головний біль. У контексті кібербезпеки він може стати відчиненими дверима для атак чи сліпою зоною, яка приховує зловмисну активність.

Можливо, я ніколи не назву себе data engineer, але цей курс допоміг мені зрозуміти, наскільки важливим і пов’язаним із кібербезпекою є цей напрям. Він показав, скільки ще залишилося для дослідження, і тепер я мотивований як ніколи занурюватися далі в цю «кролячу нору».

Дякую Дмитру Приймаку, Максиму Івашурі та всій спільноті SET University. Ваша підтримка, виклики та енергія перетворили цей курс із просто складного на один із найважчих і водночас найцінніших шляхів, які я коли-небудь проходив.

більше

Ірина Єршова

Senior Software Engineer у Splash Tech

Це був водночас захопливий і складний досвід. Я дізналася дуже багато нового і тепер можу застосовувати ці знання у своїй професійній діяльності.

Хоча зараз я працюю фронтенд-інженером, вважаю надзвичайно важливим розуміти, як працювати з даними. Недарма кажуть: «Дані – це нова нафта».

Дякую Дмитру Приймаку та Максиму Івашурі за виклики, які ви створювали для нас протягом цього курсу!

більше

FAQ

Я вже працюю як дата-інженер, чи є сенс йти на ваш курс?

Якщо ви працюєте на цій позиції рік або менше — так, адже на цьому курсі ви зможете структурувати знання та заповнити пробіли у володінні певними інструментами.

Дізнайтесь детальніше про програму SET University

Я маю промокод
Дякуємо! Ми зв'яжемося з вами найближчим часом.
Ми використовуємо файли cookie, щоб покращити ваш досвід.