pl

Databricks na platformie Azure (Data Pipelines)

Wszystkie Case Studies

Case Study: Zautomatyzowane przesyły danych z wykorzystaniem Databricks na platformie Azure

 

Cel projektu

Celem projektu było zastąpienie kosztownych, przestarzałych przepływów danych nowoczesnymi pipeline’ami opartymi na platformie Databricks. Nowe rozwiązanie miało zapewnić:

  • niższe koszty operacyjne,

  • wyższą jakość danych,

  • szybszy przepływ danych,

  • większą częstotliwość odświeżania danych,

  • pełną automatyzację testów danych,

  • zgodność z architekturą i narzędziami Klienta.

Projekt został zrealizowany przez zespół QAbird: głównego inżyniera danych oraz dwóch inżynierów QA, specjalizujących się w testowaniu rozwiązań na Databricks.

Zakres techniczny i działania

 

Budowa i testowanie przepływów danych

 
  • Dostarczono więcej niż planowano:

    • Plan: 17 pipeline’ów

    • Rzeczywistość: 21 pipeline’ów – dostarczonych w terminie

  • Testy manualne Databricks workflows:

    • Weryfikacja poprawności działania i integralności danych

    • Szczegółowe porównania danych ze starym systemem

    • Walidacja zgodności z modelem danych docelowych

Automatyzacja testów

 
  • Automatyczna walidacja modelu danych (Source to Target Mapping)

  • Integracja profilowania danych – wykrywanie anomalii we wczesnym etapie

  • Włączenie do CI/CD – pełna automatyzacja testów jakości danych w pipeline’ach wdrożeniowych

Dokumentacja i transparentność

 
  • Szczegółowy test plan oraz zestaw test case’ów (Excel + Azure DevOps)

  • Weryfikacja plików STTM

  • Dokumentacja procesów i walidacji w Confluence – zapewniająca pełną wiedzę dla zespołów klienta

Elastyczne podejście i optymalizacja dla klienta

 

Projekt był prowadzony z pełną adaptacją do narzędzi wewnętrznych klienta. Dzięki temu:

  • przyszła obsługa systemu przez zespół operacyjny klienta będzie uproszczona,

  • utrzymano spójność z architekturą IT organizacji.

Skala i wyzwania techniczne

 
  • Jeden z największych pipeline’ów przetwarzał ponad 20 mln rekordów

  • Kluczowe było utrzymanie odpowiedniej kolejności odświeżania 21 przepływów, m.in. ze względu na przekazywanie kluczy zastępczych (SKID)

  • Dobór odpowiednich narzędzi współgrających z pozostałymi systemami klienta

Czas trwania i zespół

 
  • Start projektu: 2 listopada

  • Go-live: czerwiec następnego roku

  • Czas trwania: 8 miesięcy

Zespół QAbird:

  • 1 x Lead Data Engineer

  • 2 x QA Engineers (specjalizacja: testowanie Databricks)

Technologie wykorzystane

 
  • Platforma chmurowa: Microsoft Azure

  • Data processing: Databricks, Python, PySpark, SQL

  • Kontrola wersji: GIT

  • Testowanie i dokumentacja: Excel, Azure DevOps, Confluence

Rezultaty i wartość biznesowa

 
  • Redukcja kosztów operacyjnych przez eliminację legacy tools

  • Zwiększenie częstotliwości odświeżania danych

  • Automatyzacja testów i dokumentacji

  • Wzrost niezawodności i jakości danych w całej organizacji

  • Projekt dostarczony ponad zakładanym zakresem i w pełnym terminie

 

Od samego początku monitorowaliśmy jakość projektu, wykorzystując nasz autorski system Satisfaction Survey – regularne badania satysfakcji pozwalały na szybkie reagowanie na potrzeby klienta i potwierdzały wartość dostarczanego rozwiązania.