ŘEŠENÍ TECHONE

Správa cloudu a infrastruktury s jasnou odpovědností

Přebíráme dohodnutou část provozu, nastavujeme pravidelné kontroly a vedeme záznam o změnách a zjištěních. Interní tým tak ví, za co odpovídá TechOne, co zůstává na jeho straně a jak postupovat při incidentu.

Nezávazná konzultace Jak pracujeme

Kde provozu chybí vlastník

Technické upozornění má smysl jen tehdy, když je jasné, kdo ho vyhodnotí a co má následovat.

Upozornění nemají určenou reakci

Monitoring hlásí problém, ale není jasné, kdo ověří dopad, informuje uživatele a rozhodne o zásahu.

Obnova není provozně připravená

Zálohy se vytvářejí, ale chybí dohodnutý rozsah obnovy, odpovědná osoba nebo způsob potvrzení výsledku.

Změny se obtížně dohledávají

Konfigurace se mění bez úplného záznamu a při incidentu není zřejmé, co se změnilo, proč a s jakým výsledkem.

Odpovědnost je rozdělená mezi více týmů

Interní IT, dodavatel aplikace a správce infrastruktury mají společné závislosti, ale ne vždy přesně vymezené role.

Jak nastavujeme provozní správu

Nejdřív určíme rozsah odpovědnosti, způsob reakce a potřebná oprávnění. Teprve potom vybíráme nástroje.

Jasný rozsah odpovědnosti

Pro každou část prostředí určíme vlastníka, dobu pokrytí, způsob eskalace a oprávnění provádět změny.

Rozdělení rolí mezi zapojené týmy
Závažnost incidentů a eskalační cesta
Schvalování plánovaných změn
Komunikační a předávací postupy

Monitoring spojený s reakcí

Sledované signály mají účel, hranici upozornění, závažnost a osobu odpovědnou za další postup.

Dostupnost, výkon a kapacita
Chybovost, latence a certifikáty
Určené vyhodnocení dopadu
Reakce podle provozního modelu

Pravidelné kontroly a záznam změn

Frekvenci kontrol stanovíme podle kritičnosti a změn prostředí. Výstup zachycuje provedené práce, zjištění a otevřená rizika.

Aktualizace, konfigurace a kapacita
Kontrola certifikátů a stavu záloh
Důvod, rozsah a výsledek změny
Přehled doporučených dalších kroků

Zálohy a obnova podle kritičnosti

Rozsah ochrany dat a ověřování obnovy vychází z toho, jak rychle musí být systém obnoven a jaká ztráta dat je přijatelná.

Rozsah chráněných dat a historie
Frekvence, uchování a umístění kopií
Postup obnovy a odpovědné osoby
Ověření obnovy podle dohodnutého plánu

Odpovědnost musí být konkrétní

Provozní model popisuje, kdo odpovídá za jednotlivé části prostředí a jaké zásahy smí provádět. Stejně důležité je určit dobu pokrytí, komunikační kanál, závažnost incidentů a eskalační cestu.

Rozdělení odpovědnosti může být různé. TechOne může převzít celé prostředí, jen infrastrukturu pod aplikací nebo vybrané kontroly vedle interního týmu. Rozsah se zapíše tak, aby žádná závislost nezůstala mezi dvěma dodavateli bez vlastníka.

Konkrétní reakční doby vycházejí ze smluveného SLA. Stejný systém může potřebovat jiný režim během pracovní doby a jiný při kritickém provozu.

Monitoring začíná otázkou, kdo reaguje

Monitoring může sledovat dostupnost, výkon, kapacitu, latenci, chybovost, platnost certifikátů i vybrané nákladové signály. Každá metrika ale potřebuje smysluplnou hranici a určenou závažnost.

Při upozornění nejdřív ověříme skutečný dopad. Provozní postup pak určuje, kdo informuje odpovědné osoby, jaké informace mají dostat a kdo smí provést zásah.

Pro Helvetii po migraci pokračujeme v monitoringu, upozorňování na problémy, optimalizaci výkonu, podpoře a dalším rozvoji systému v Azure pro sedm trhů.

Záloha a plán obnovy patří k sobě

Nejdřív určíme, která data a konfigurace je potřeba chránit, jaká ztráta dat je přijatelná a jak rychle musí být systém obnoven. Z toho vychází frekvence záloh, doba uchování a umístění kopií.

Úspěšně dokončený zálohovací úkol potvrzuje vytvoření kopie. Schopnost obnovy se ověřuje samostatně podle dohodnutého plánu a kritičnosti systému.

Rozsah ověření může sahat od obnovy vybraných dat po kontrolu celého provozního scénáře. Výsledek, zjištěné nedostatky a potřebné změny se zaznamenají do provozní dokumentace.

Převzetí infrastruktury bez ztráty znalostí

Převzetí od interního týmu nebo jiného dodavatele začíná inventářem komponent, závislostí, přístupů, dokumentace a otevřených rizik. Teprve potom se předávají oprávnění k běžným a mimořádným zásahům.

Pokud je to potřebné a proveditelné, část předání proběhne souběžně s původním správcem. Cílem je ověřit provozní postupy a doplnit chybějící znalosti před převzetím odpovědnosti.

Na dokončenou migraci do cloudu může navázat dlouhodobá správa. Pokud firma potřebuje doplnit konkrétní odbornost bez převzetí celého provozu, slouží k tomu projektový tým.

Jak prostředí přebíráme a spravujeme

Před převzetím popíšeme prostředí, rozdělíme odpovědnost a nastavíme kontroly, incidenty i pravidelné výstupy.

Zmapování prostředí

Sepíšeme systémy, závislosti, vlastníky, přístupy, dostupnou dokumentaci a hlavní provozní rizika.

Dohoda o provozním modelu

Určíme rozsah odpovědnosti, dobu pokrytí, eskalace, oprávnění ke změnám a podobu výstupů.

Nastavení kontrol a postupů

Nastavíme potřebný monitoring, pravidelné kontroly a postupy pro incidenty, změny, zálohy a obnovu.

Pravidelný provoz a revize

Řešíme upozornění a incidenty v dohodnutém režimu, evidujeme změny a vyhodnocujeme otevřená rizika.

Dlouhodobý provoz v praxi

Helvetia: pokračující monitoring, podpora a rozvoj systému v Azure pro sedm trhů

HELVETIA

E-commerce

Od roku 2022

Délka spolupráce

Země

Často kladené otázky

Jak probíhá převzetí infrastruktury od jiného dodavatele?

Začneme inventářem komponent, závislostí, přístupů, dokumentace a otevřených rizik. Potom potvrdíme rozdělení odpovědnosti a postupně převezmeme dohodnutá oprávnění. Souběh s původním dodavatelem použijeme tam, kde pomůže předat znalosti a je organizačně možný.

Spravujete jen cloud, nebo také vlastní servery?

Rozsah může zahrnout cloudové, hybridní i klientem provozované prostředí. Konkrétní postupy a nástroje se liší podle platformy, aplikací a rozdělení odpovědnosti. Nejdřív proto mapujeme celé prostředí a jeho závislosti.

Můžete spolupracovat s naším interním DevOps týmem?

Ano. TechOne může převzít jen vybranou část prostředí, pravidelné kontroly nebo pohotovostní kapacitu v dohodnutém režimu. Provozní model přesně určí, co řeší interní tým, co TechOne a jak se mezi nimi předávají incidenty a změny.

Jak rychle reagujete na incident?

Reakční doba závisí na závažnosti incidentu, době pokrytí a smluveném SLA. Před zahájením provozu proto určíme klasifikaci incidentů, komunikační kanály, eskalační cestu a odpovědné osoby. Konkrétní časy uvádíme až v nabídce pro dané prostředí.

Jak ověřujete zálohy a obnovu?

Pro každý systém stanovíme rozsah chráněných dat, přijatelnou ztrátu, požadovanou dobu obnovy a odpovědné osoby. Podle toho vznikne zálohovací a obnovovací plán. Samotné ověření obnovy probíhá v rozsahu a frekvenci dohodnuté pro konkrétní prostředí.

Jak se určuje cena správy?

Cenu ovlivňuje velikost a členitost prostředí, počet systémů a závislostí, rozsah pravidelných kontrol, doba pokrytí a požadovaný reakční model. Po vstupním zmapování připravíme konkrétní rozsah odpovědnosti a nabídku.

Související řešení

Další oblasti, které mohou být součástí stejného projektu.

Začněme rozdělením odpovědnosti.

Na úvodní konzultaci projdeme současné prostředí, jeho vlastníky a provozní režim. Podle toho připravíme rozsah převzetí a pravidelné správy.

Domluvit konzultaci