Databricks na platformie Azure (Data Pipelines)

Case Study: Zautomatyzowane przesyły danych z wykorzystaniem Databricks na platformie Azure

Cel projektu

Celem projektu było zastąpienie kosztownych, przestarzałych przepływów danych nowoczesnymi pipeline’ami opartymi na platformie Databricks. Nowe rozwiązanie miało zapewnić:

niższe koszty operacyjne,
wyższą jakość danych,
szybszy przepływ danych,
większą częstotliwość odświeżania danych,
pełną automatyzację testów danych,
zgodność z architekturą i narzędziami Klienta.

Projekt został zrealizowany przez zespół QAbird: głównego inżyniera danych oraz dwóch inżynierów QA, specjalizujących się w testowaniu rozwiązań na Databricks.

Zakres techniczny i działania

Budowa i testowanie przepływów danych

Dostarczono więcej niż planowano:
- Plan: 17 pipeline’ów
- Rzeczywistość: 21 pipeline’ów – dostarczonych w terminie
Testy manualne Databricks workflows:
- Weryfikacja poprawności działania i integralności danych
- Szczegółowe porównania danych ze starym systemem
- Walidacja zgodności z modelem danych docelowych

Automatyzacja testów

Automatyczna walidacja modelu danych (Source to Target Mapping)
Integracja profilowania danych – wykrywanie anomalii we wczesnym etapie
Włączenie do CI/CD – pełna automatyzacja testów jakości danych w pipeline’ach wdrożeniowych

Dokumentacja i transparentność

Szczegółowy test plan oraz zestaw test case’ów (Excel + Azure DevOps)
Weryfikacja plików STTM
Dokumentacja procesów i walidacji w Confluence – zapewniająca pełną wiedzę dla zespołów klienta

Elastyczne podejście i optymalizacja dla klienta

Projekt był prowadzony z pełną adaptacją do narzędzi wewnętrznych klienta. Dzięki temu:

przyszła obsługa systemu przez zespół operacyjny klienta będzie uproszczona,
utrzymano spójność z architekturą IT organizacji.

Skala i wyzwania techniczne

Jeden z największych pipeline’ów przetwarzał ponad 20 mln rekordów
Kluczowe było utrzymanie odpowiedniej kolejności odświeżania 21 przepływów, m.in. ze względu na przekazywanie kluczy zastępczych (SKID)
Dobór odpowiednich narzędzi współgrających z pozostałymi systemami klienta

Czas trwania i zespół

Start projektu: 2 listopada
Go-live: czerwiec następnego roku
Czas trwania: 8 miesięcy

Zespół QAbird:

1 x Lead Data Engineer
2 x QA Engineers (specjalizacja: testowanie Databricks)

Technologie wykorzystane

Platforma chmurowa: Microsoft Azure
Data processing: Databricks, Python, PySpark, SQL
Kontrola wersji: GIT
Testowanie i dokumentacja: Excel, Azure DevOps, Confluence

Rezultaty i wartość biznesowa

Redukcja kosztów operacyjnych przez eliminację legacy tools
Zwiększenie częstotliwości odświeżania danych
Automatyzacja testów i dokumentacji
Wzrost niezawodności i jakości danych w całej organizacji
Projekt dostarczony ponad zakładanym zakresem i w pełnym terminie

Od samego początku monitorowaliśmy jakość projektu, wykorzystując nasz autorski system Satisfaction Survey – regularne badania satysfakcji pozwalały na szybkie reagowanie na potrzeby klienta i potwierdzały wartość dostarczanego rozwiązania.