Infrastruktura IT

Wdrożenie KPI w 14-osobowym zespole DevOps

Zespół nie wiedział, za co jest rozliczany. Ustaliliśmy 3 główne metryki stabilności systemów. Efekt to skrócenie czasu odpowiedzi na błędy krytyczne o 34 minuty.

34 min szybciej
KlientCloudNode Sp. z o.o.
BranżaInfrastruktura IT
HarmonogramSierpień–Wrzesień 2024

CloudNode miało problem z brakiem jasności w codziennej pracy. Deweloperzy robili swoje, a systemy i tak padały w najmniej odpowiednich momentach, co budowało napięcie na linii zarząd-technicy. W dwa miesiące wprowadziliśmy system mierników, który pokazał wszystkim, co jest naprawdę ważne dla stabilności biznesu.

Systemy KPIZarządzanie DevOpsAudyt kultury pracyMierniki MTTRZespoły IT

Wyzwanie

Zespół 14 inżynierów DevOps pracował w trybie ciągłego gaszenia pożarów. Przez 11 miesięcy nikt nie mierzył, dlaczego czas reakcji na błędy krytyczne wynosił średnio 87 minut. Braki w komunikacji między zmianami i brak konkretnych celów sprawiały, że co drugi weekend ktoś musiał naprawiać infrastrukturę pod ogromną presją czasu, nie wiedząc nawet, czy robi to zgodnie z priorytetami firmy.

Podejście

Zaczęliśmy od trzech dni obserwacji pracy na żywo we wrocławskim biurze CloudNode. Rozmawialiśmy z każdym inżynierem z osobna, żeby wyłapać, gdzie ucieka czas i dlaczego procedury nie działają. Zamiast wdrażać dziesiątki wykresów, wybraliśmy 3 twarde metryki stabilności, które każdy pracownik rozumie i na które ma realny wpływ podczas swojej zmiany.

Rozwiązanie

Wprowadziliśmy prostą tablicę wyników zintegrowaną ze Slackiem, która aktualizuje się automatycznie. Ustaliliśmy jasną zasadę: błędy o najwyższym priorytecie mają pierwszeństwo przed nowymi funkcjami. Przeszkoliliśmy liderów z prowadzenia krótkich odpraw technicznych — wcześniej trwały one 42 minuty, a teraz zamykają się w 12 minutach, dając zespołowi konkretny plan na resztę dnia.

Rezultaty

System KPI sprawił, że ludzie przestali zgadywać, co mają robić w sytuacjach kryzysowych. Odpowiedzialność stała się jasna dla każdego szczebla, a stres w zespole spadł o blisko jedną piątą, bo pracownicy wiedzą dokładnie, jak są oceniani przez przełożonych.

34 minuty
Skrócenie średniego czasu reakcji na incydent
12 min
Czas trwania porannej odprawy technicznej
18.7%
Mniej powtarzających się awarii infrastruktury
0
Telefonów do CTO w weekendy od wdrożenia

Harmonogram

  1. Sierpień 2024
    Indywidualne wywiady z inżynierami i audyt procesów w CloudNode.
  2. Sierpień 2024
    Warsztaty z zarządem i wybór 3 kluczowych mierników stabilności.
  3. Wrzesień 2024
    Konfiguracja dashboardu KPI i szkolenie liderów z komunikacji.
  4. Wrzesień 2024
    Pierwsza ewaluacja wyników i dostosowanie systemu premiowego.

"Szczerze mówiąc, bałem się, że KPI to tylko tabelki w Excelu, które nic nie zmieniają w kodzie. Ale teraz moi ludzie sami widzą błędy wcześniej i nikt nie dzwoni do nas o 3 rano z pretensjami."

Mariusz Borkowski CTO, CloudNode Sp. z o.o. Październik 2024