Databricks na platformie Azure (Data Pipelines)
Case Study: Zautomatyzowane przesyły danych z wykorzystaniem Databricks na platformie Azure
Cel projektu
Celem projektu było zastąpienie kosztownych, przestarzałych przepływów danych nowoczesnymi pipeline’ami opartymi na platformie Databricks. Nowe rozwiązanie miało zapewnić:
-
niższe koszty operacyjne,
-
wyższą jakość danych,
-
szybszy przepływ danych,
-
większą częstotliwość odświeżania danych,
-
pełną automatyzację testów danych,
-
zgodność z architekturą i narzędziami Klienta.
Projekt został zrealizowany przez zespół QAbird: głównego inżyniera danych oraz dwóch inżynierów QA, specjalizujących się w testowaniu rozwiązań na Databricks.
Zakres techniczny i działania
Budowa i testowanie przepływów danych
-
Dostarczono więcej niż planowano:
-
Plan: 17 pipeline’ów
-
Rzeczywistość: 21 pipeline’ów – dostarczonych w terminie
-
-
Testy manualne Databricks workflows:
-
Weryfikacja poprawności działania i integralności danych
-
Szczegółowe porównania danych ze starym systemem
-
Walidacja zgodności z modelem danych docelowych
-
Automatyzacja testów
-
Automatyczna walidacja modelu danych (Source to Target Mapping)
-
Integracja profilowania danych – wykrywanie anomalii we wczesnym etapie
-
Włączenie do CI/CD – pełna automatyzacja testów jakości danych w pipeline’ach wdrożeniowych
Dokumentacja i transparentność
-
Szczegółowy test plan oraz zestaw test case’ów (Excel + Azure DevOps)
-
Weryfikacja plików STTM
-
Dokumentacja procesów i walidacji w Confluence – zapewniająca pełną wiedzę dla zespołów klienta
Elastyczne podejście i optymalizacja dla klienta
Projekt był prowadzony z pełną adaptacją do narzędzi wewnętrznych klienta. Dzięki temu:
-
przyszła obsługa systemu przez zespół operacyjny klienta będzie uproszczona,
-
utrzymano spójność z architekturą IT organizacji.
Skala i wyzwania techniczne
-
Jeden z największych pipeline’ów przetwarzał ponad 20 mln rekordów
-
Kluczowe było utrzymanie odpowiedniej kolejności odświeżania 21 przepływów, m.in. ze względu na przekazywanie kluczy zastępczych (SKID)
-
Dobór odpowiednich narzędzi współgrających z pozostałymi systemami klienta
Czas trwania i zespół
-
Start projektu: 2 listopada
-
Go-live: czerwiec następnego roku
-
Czas trwania: 8 miesięcy
Zespół QAbird:
-
1 x Lead Data Engineer
-
2 x QA Engineers (specjalizacja: testowanie Databricks)
Technologie wykorzystane
-
Platforma chmurowa: Microsoft Azure
-
Data processing: Databricks, Python, PySpark, SQL
-
Kontrola wersji: GIT
-
Testowanie i dokumentacja: Excel, Azure DevOps, Confluence
Rezultaty i wartość biznesowa
-
Redukcja kosztów operacyjnych przez eliminację legacy tools
-
Zwiększenie częstotliwości odświeżania danych
-
Automatyzacja testów i dokumentacji
-
Wzrost niezawodności i jakości danych w całej organizacji
-
Projekt dostarczony ponad zakładanym zakresem i w pełnym terminie
Od samego początku monitorowaliśmy jakość projektu, wykorzystując nasz autorski system Satisfaction Survey – regularne badania satysfakcji pozwalały na szybkie reagowanie na potrzeby klienta i potwierdzały wartość dostarczanego rozwiązania.