Infrastruktura IT

Wdrożenie KPI w 14-osobowym zespole DevOps

Zespół nie wiedział, za co jest rozliczany. Ustaliliśmy 3 główne metryki stabilności systemów. Efekt to skrócenie czasu odpowiedzi na błędy krytyczne o 34 minuty.

34 min szybciej

KlientCloudNode Sp. z o.o.

BranżaInfrastruktura IT

HarmonogramSierpień–Wrzesień 2024

CloudNode miało problem z brakiem jasności w codziennej pracy. Deweloperzy robili swoje, a systemy i tak padały w najmniej odpowiednich momentach, co budowało napięcie na linii zarząd-technicy. W dwa miesiące wprowadziliśmy system mierników, który pokazał wszystkim, co jest naprawdę ważne dla stabilności biznesu.

Systemy KPIZarządzanie DevOpsAudyt kultury pracyMierniki MTTRZespoły IT

Wyzwanie

Zespół 14 inżynierów DevOps pracował w trybie ciągłego gaszenia pożarów. Przez 11 miesięcy nikt nie mierzył, dlaczego czas reakcji na błędy krytyczne wynosił średnio 87 minut. Braki w komunikacji między zmianami i brak konkretnych celów sprawiały, że co drugi weekend ktoś musiał naprawiać infrastrukturę pod ogromną presją czasu, nie wiedząc nawet, czy robi to zgodnie z priorytetami firmy.

Podejście

Zaczęliśmy od trzech dni obserwacji pracy na żywo we wrocławskim biurze CloudNode. Rozmawialiśmy z każdym inżynierem z osobna, żeby wyłapać, gdzie ucieka czas i dlaczego procedury nie działają. Zamiast wdrażać dziesiątki wykresów, wybraliśmy 3 twarde metryki stabilności, które każdy pracownik rozumie i na które ma realny wpływ podczas swojej zmiany.

Rozwiązanie

Wprowadziliśmy prostą tablicę wyników zintegrowaną ze Slackiem, która aktualizuje się automatycznie. Ustaliliśmy jasną zasadę: błędy o najwyższym priorytecie mają pierwszeństwo przed nowymi funkcjami. Przeszkoliliśmy liderów z prowadzenia krótkich odpraw technicznych — wcześniej trwały one 42 minuty, a teraz zamykają się w 12 minutach, dając zespołowi konkretny plan na resztę dnia.

Rezultaty

System KPI sprawił, że ludzie przestali zgadywać, co mają robić w sytuacjach kryzysowych. Odpowiedzialność stała się jasna dla każdego szczebla, a stres w zespole spadł o blisko jedną piątą, bo pracownicy wiedzą dokładnie, jak są oceniani przez przełożonych.

34 minuty

Skrócenie średniego czasu reakcji na incydent

12 min

Czas trwania porannej odprawy technicznej

18.7%

Mniej powtarzających się awarii infrastruktury

Telefonów do CTO w weekendy od wdrożenia

Harmonogram

Sierpień 2024

Indywidualne wywiady z inżynierami i audyt procesów w CloudNode.
Sierpień 2024

Warsztaty z zarządem i wybór 3 kluczowych mierników stabilności.
Wrzesień 2024

Konfiguracja dashboardu KPI i szkolenie liderów z komunikacji.
Wrzesień 2024

Pierwsza ewaluacja wyników i dostosowanie systemu premiowego.

"Szczerze mówiąc, bałem się, że KPI to tylko tabelki w Excelu, które nic nie zmieniają w kodzie. Ale teraz moi ludzie sami widzą błędy wcześniej i nikt nie dzwoni do nas o 3 rano z pretensjami."

Mariusz Borkowski CTO, CloudNode Sp. z o.o. Październik 2024

← Powrót do realizacji

Wyzwanie

Podejście

Rozwiązanie

Rezultaty

Harmonogram

Zadbaj o swoją prywatność